出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

行情 | 2024-02-21| 14
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

好的研究不会被埋没,只会历久弥新。

虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!

其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV2023接收。

  • 论文地址:https://arxiv.org/pdf/2212.09748v2.pdf

  • GitHub 地址:https://github.com/facebookresearch/DiT

这两天,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。

论文出现在 PapersWithCode 的 Trending Research 榜单上,星标数量已近2700;还登上了 GitHub Trending 榜单,星标数量每日数百增长,Star 总量已超3000。

来源:https://paperswithcode.com/

来源:https://github.com/facebookresearch/DiT

这篇论文最早的版本是2022年12月,2023年3月更新了第二版。当时,扩散模型在图像生成方面取得了惊人的成果,几乎所有这些模型都使用卷积 U-Net 作为主干。

因此,论文的目的是探究扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U-Net 归纳偏置对扩散模型的性能不是至关重要的,并且可以很容易地用标准设计(如 transformer)取代。

具体来说,研究者提出了一种基于 transformer 架构的新型扩散模型 DiT,并训练了潜在扩散模型,用对潜在 patch 进行操作的 Transformer 替换常用的 U-Net 主干网络。他们通过以 Gflops 衡量的前向传递复杂度来分析扩散 Transformer (DiT) 的可扩展性。

研究者尝试了四种因模型深度和宽度而异的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他们发现,通过增加 Transformer 深度 / 宽度或增加输入 token 数量,具有较高 Gflops 的 DiT 始终具有较低的 FID。

除了良好的可扩展性之外,DiT-XL/2模型在 class-conditional ImageNet512×512和256×256基准上的性能优于所有先前的扩散模型,在后者上实现了2.27的 FID SOTA 数据。

质量、速度、灵活性更好的 SiT

此外,DiT 还在今年1月迎来了升级!谢赛宁及团队推出了 SiT(Scalable Interpolant Transformer,可扩展插值 Tranformer),相同的骨干实现了更好的质量、速度和灵活性。

谢赛宁表示,SiT 超越了标准扩散并通过插值来探索更广阔的设计空间。

该论文标题为《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

  • 论文地址:https://arxiv.org/pdf/2401.08740.pdf

  • GitHub 地址:https://github.com/willisma/SiT

简单来讲,SiT 将灵活的插值框架集成到了 DiT 中,从而能够对图像生成中的动态传输进行细微的探索。SiT 在 ImageNet256的 FID 为2.06,将基于插值的模型推向了新的高度。

论文一作、纽约大学本科生 Nanye Ma 对这篇论文进行了解读。本文认为,随机插值为扩散和流提供了统一的框架。但又注意到, 基于 DDPM(去噪扩散概率模型)的 DiT 与较新的基于插值的模型之间存在性能差异。因此,研究者想要探究性能提升的来源是什么?

他们通过设计空间中的一系列正交步骤,逐渐地从 DiT 模型过渡到 SiT 模型来解答这一问题。同时仔细评估了每个远离扩散模型的举措对性能的影响。

研究者发现,插值和采样器对性能的影响最大。当将插值(即分布路径)从方差保留切换到线性以及将采样器从确定性切换到随机性时,他们观察到了巨大的改进。

对于随机采样,研究者表明扩散系数不需要在训练和采样之间绑定,在推理时间方面可以有很多选择。同时确定性和随机采样器在不同的计算预算下各有其优势。

最后,研究者将 SiT 描述为连续、速度可预测、线性可调度和 SDE 采样的模型。与扩散模型一样,SiT 可以实现性能提升,并且优于 DiT。

标签:, ,

相关推荐相关推荐

远距出游受追捧!滴滴发布五一出行报告:跨城打车需求上涨99%

远距出游受追捧!滴滴发布五一出行报告:跨城打车需求上涨99%

快科技5月6日消息,滴滴官方近日公布了五一假期的出行报告,详细梳理了假期的出行情况。

行情 12 2024-05-06
索尼Xperia 1 VI真机亮相:骁龙8 Gen3加持

索尼Xperia 1 VI真机亮相:骁龙8 Gen3加持

据官方此前宣布,索尼将于5月17日举办Xperia新品发布会。虽然官方尚未透露具体的机型,但考虑到去年发布的Xperia 1 V,因此今年的活动很有可能推出新一代Xperia 1 VI。近日有外媒发布了该机的高清渲染图。

行情 7 2024-05-06
微软发布AI天气预测模型 能精准预报未来30天天气

微软发布AI天气预测模型 能精准预报未来30天天气

站长之家(ChinaZ.com)5月6日 消息:微软Start团队近日宣布,他们开发出了一种全新的数据驱动AI天气预测模型,该模型能够准确预测未来30天的天气情况。这一研究成果不仅在预报准确率上取得了显著提升,同时在计算效率上也实现了巨大突破。

行情 13 2024-05-06
高铁上2女子因遮光帘拉扯40分钟 12306回应

高铁上2女子因遮光帘拉扯40分钟 12306回应

快科技5月6日消息,近期在一列从合肥开往太原的G3136高铁列车上发生了一起令人哑然的事件。

行情 6 2024-05-06
“玩”出百万粉丝,抖音小游戏成创作者新风口?

“玩”出百万粉丝,抖音小游戏成创作者新风口?

你是否在刷抖音时刷到过类似的短视频:不算精致的游戏画面中坐着一位小姐姐,她面前摆放了一大盆米饭,周围还散布着各种各样的“小摆件”,屏幕上的标题是《如何让小姐姐吃饱饭》?

行情 5 2024-05-06
Al加码,引爆“躺平式”旅游

Al加码,引爆“躺平式”旅游

今年的五一,“微度假”“微旅行”纷纷出圈。 相较于三亚、云南等老牌旅游大热门,人们开始寻找一些不用“人挤人”的小众旅行目的地:数据显示,更多游客愿意来到小城市旅游。根据在线旅游平台数据,今年“五一”假期,县域市场酒店预订订单同比增长68%,景区门票 ...

行情 7 2024-05-06
实时语音变换器Supertone Shift 可将实时变化直播说话声音

实时语音变换器Supertone Shift 可将实时变化直播说话声音

5月6日 消息:Supertone Shift是一款创新的实时语音变换技术产品,它允许用户即时切换到任选的声音,为虚拟主播(VTubers)、内容创作者、游戏玩家以及希望准确表达角色声音的用户提供了强大的支持。

行情 4 2024-05-06
特斯拉人形机器人擎天柱进厂打工 可精准分装电池

特斯拉人形机器人擎天柱进厂打工 可精准分装电池

站长之家(ChinaZ.com)5月6日 消息:最近,特斯拉发布了关于其最新人形机器人擎天柱Optimus的最新进展视频,这段视频凸显了Optimus在分拣电池、自主行走以及执行工厂任务等多方面的能力。

行情 7 2024-05-06
德系豪华品牌开始发力!奥迪推出限时政策:置换至高补贴4.2万元

德系豪华品牌开始发力!奥迪推出限时政策:置换至高补贴4.2万元

快科技5月6日消息,我们从奥迪官方获悉,奥迪官方认证二手车迎来20周年庆典,特别推出了五大专属礼遇,涵盖评估、置换、会员、延保和翻新等服务。

行情 6 2024-05-06
特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。 正常速度下,它分拣电池(特斯拉的4680电池)是这样的: 官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣: 这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的 ...

行情 8 2024-05-06
拼命投流拼命爽:疯狂引流私域的茶叶到底怎么挣钱?

拼命投流拼命爽:疯狂引流私域的茶叶到底怎么挣钱?

一些茶叶销售团队正在激进地投流并引流至私域。来自平台的数据显示,其ROI非常乐观。更重要的是,这个门类所面对的人群,简直是私域最佳人群:

行情 12 2024-05-06
AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频

AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

行情 11 2024-05-06
英伟达 ChatRTX 增加了语音图像等多种新功能 支持新的模型

英伟达 ChatRTX 增加了语音图像等多种新功能 支持新的模型

站长之家(ChinaZ.com)5月6日 消息:英伟达的ChatRTX在其最新更新中引入了多种新功能,这些功能在3月的GTC上首次展示,显著增强了这款基于RTX加速的聊天机器人应用的能力。ChatRTX现在支持更多的大型语言模型(LLM),包括Google的Gemma和中英双语的ChatG ...

行情 8 2024-05-06
价值15000元!理想L6最新定购权益发布

价值15000元!理想L6最新定购权益发布

快科技5月6日消息,今天上午,理想汽车发布了L6车型最新的定购权益。 即日起至2024年5月31日24时,定购用户可享5000元定金抵扣1万元购车款;5000元选装基金;价值5000元7千瓦家充桩及安装服务。 与上市公布的定购权益相比,选装基金由1万元降至5000元。 ...

行情 7 2024-05-06
10月发!曝小米15 Pro有直立和潜望双版本

10月发!曝小米15 Pro有直立和潜望双版本

快科技5月6日消息,博主数码闲聊站暗示,小米15Pro工程机测试了直立长焦和潜望长焦两个版本,目前尚未敲定最终长焦方案。

行情 7 2024-05-06