国产Sora的秘密 藏在这个清华系大模型团队中

业界 | 2024-04-28| 26
国产Sora的秘密 藏在这个清华系大模型团队中

在视频 AIGC 领域,出现一个有力的国产选手。

2024 年,Sora 一直活在聚光灯下。

马斯克不惜溢美之词,称「人类愿赌服输」;红衣教主周鸿祎眼中,借助 Sora 人类实现 AGI 将缩减至一两年。就连卖付费课程的微商,也拿「Sora」重新组装了自己的镰刀。

这种狂热的蔓延,从美国到中国,从一级到二级甚至再到三级市场,像涟漪一样,播散向全世界。

因为,在理想情况下,长视频生成的底层逻辑,约等于世界模型。十几秒、几十秒的视频中,包含了基础的图像处理、空间关系、物理规律、因果逻辑等等现实规律与知识的映射。小处看,可以掀翻传统电影、游戏制作的桌子,大处看,通往通用人工智能,这是关键一步。

同时,在一众长视频生成算法中,Sora 的技术突破是具备革命性的。相比传统的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架构,既克服了 Stable Diffusion 扩展性的缺失,更是在生成内容的准确性和灵活性上有了质的飞跃。

唯一美中不足是,Sora 并非开源算法。

没了开源,也就没了复现的可能;没了复现可能,那么哪怕经管出身的合伙人睡前读物变成了《Scalable diffusion models with transformers》,投资经理一周跑遍北京、深圳科技产业园掘地三尺,所有人都不得不承认一个现实,尽管视频大模型企业众多,但或许尚未等到国产 Sora 正式发掘,视频大模型的淘汰赛就已经走到尾声。

业内「哇声一片」,一级市场却空前焦虑。中国 AI 企业,只能眼睁睁看着自己距离 Sora 越来越远吗?

01「国产 Sora」来了?场上 VC 几乎绝望之际,谁也没曾想到,国产 Sora 的秘密,最先揭晓谜底的,竟是成立仅一年多的大模型企业——生数科技。

近日,生数科技联合清华大学宣布推出国内首个基于纯自研 U-ViT 架构的视频大模型「Vidu」,支持一键生成长达 16 秒、分辨率高达 1080p 的高清视频内容。从官宣的短片来看,Vidu 在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面,几乎与 Sora 齐平。

而相比其他国产「类 Sora」的工作,Vidu 一个最明显的特点就是,画面时间足够长。

一直以来,十秒几乎是「国产 Sora」的一个生死线。要想达到或者超过十秒,则意味着对训练素材的积累,以及如何解决算法记忆消失问题,需要做出深厚的研究。

这是 Vidu 放出的另一段官方视频,从视频中可以看到,白色老式 SUV 在山坡土路行驶中,滚动的轮胎会扬起灰尘,轨迹自然连贯;周围树林,也在阳光的照射下,遵循真实世界中的投射规律,留下光影斑驳。

形成对比的是,保证视频时长的前提下,大部分国产「类 Sora」都很难保持人物和场景的连贯,同时也难以做到真实地遵循物理世界规律,比如吃汉堡会留下咬痕、汽车开过会留下尾气与灰尘的痕迹。

根据行业人士透露,目前市面上之前的一些「类 Sora」模型,做到长时长的路径,其实大多是通过插帧的方式,在视频的每两帧画面中增加一帧或多帧来提升视频的长度。

这种方法就需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。

但生数科技的作用原理明显不同。基于单一模型完全端到端生成实现底层算法,直观上,我们可以看到「一镜到底」的丝滑感,视频从头到尾连续生成,没有插帧痕迹。

另外,还有一些工具类的长视频采用了「换汤不换药」的做法。底层集合了许多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成单张画面,再图生 4s 短视频,再做拼接。也就是说,想要一个十几秒长视频,那就把多个 4s 短视频拼在一起就好,不仅整体的画面流畅度会大打折扣,底层也并没有实现长视频生成能力的突破。

除了生成时长有了质的突破,从官宣视频中我们还可以看到,Vidu 还做到了画面连续流畅,且有细节、逻辑连贯。尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

做一个简单对比,以下是某热门视频大模型团队的视频生成效果截图,虽然整体视频长度才四秒,但仅仅一个准备跳跃的动作指令,就足以让画面里的小猫变成 6 只脚,或者三根尾巴的「鬼影」。

对比如此鲜明,让人不禁疑惑:为何ChatGPT发布后,市场马上涌现一批「达到 GPT 3.5,逼近 GPT4.0」的大模型产品。同样是追赶,为什么类 Sora 产品却如此困难?

答案是,ChatGPT 发布不久,Meta LLama2 开源,开源平替解决了国产 ChatGPT 技术复现的燃眉之急。而 Sora 没有开源,技术细节未公开,这就导致,实现「国产 Sora」就只剩了自研这一条路可以走。

根据 OpenAI 披露的技术报告,Sora 核心技术架构背后源自一篇名为《Scalable Diffusion Models with Transformers》的论文,论文提出了一个将 Diffusion(扩散模型)和 Transformer 融合的架构——DiT,后面被 Sora 采用。

巧合的是,比 DiT 早两个多月,清华团队就提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。从架构路线上,两者并无二致。甚至过程中,还曾出现一个小插曲,由于发布时间更早,当年计算机视觉顶会 CVPR 2023 收录了清华大学的 U-ViT 论文,却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。

生数科技的创始团队正是源于清华大学该论文团队。公司的 CTO 鲍凡就是该篇论文的第一作者,此次发布的 Vidu 模型底层采用的就是 U-ViT 架构。也就是说,生数科技并不属于追逐 Sora 的一员,而是一早就踏在了同一起跑线,甚至是更早。

由此窥见,生数科技成立时间虽短,但来头却不小。

深扒发现,论人才,其团队核心成员来自清华大学人工智能研究院,是国内最早开展深度生成式研究的团队。论技术,团队多项研究成果被 OpenAI、苹果、Stability AI 等应用于 DALL·E 2、Stable Diffusion 等模型中,是现阶段在生成式领域发表论文成果数最多的国内团队。论背景,生数科技已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名机构的认可,完成数亿元融资。

而真做到这一切的,为什么是生数?

02 为什么是生数科技?最重要的答案或许是,生数科技早早走对了技术路线。

与市面上大部分视频生成算法采用基于 U-Net 卷积架构的传统扩散模型不同,生数科技此次发布的 Vidu 与 Sora 采用的都是融合架构(即上文提到的 U-ViT 与 DiT)。

所谓融合架构,可以理解为 Diffusion(扩散模型)与 Transformer 的融合。

Transformer 架构被熟知应用于大语言模型,该架构的优势在于 scale 特性,参数量越大,效果越好,而 Diffusion 被常用于传统视觉任务(图像和视频生成)中。

融合架构就是在 Diffusion Model(扩散模型)中,用 Transformer 替换常用的 U-Net 卷积网络,将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。

2022 年 9 月,团队提交了 U-ViT 论文,在全球首次提出将扩散模型与 Transformer 融合的架构思路。两个多月之后推出的 DiT 架构同样采取了这一思路,而后被 Sora 采用。

相比仅在 ImageNet 上做了实验的 DiT,U-ViT 还在小数据集(CIFAR10、CelebA)、ImageNet、图文数据集 MSCOCO 均做了实验。而且,相比传统的 Transformer,U-ViT 提出了一项「长连接」的技术,大大提升了训练收敛速度。

之后,团队继续深入。2023 年 3 月,团队基于 U-ViT 架构在大规模图文数据集 LAION-5B 上训练出近 10 亿参数量模型 UniDiffuser,并将其开源,UniDiffuser 支持图文模态间的任意生成和转换。

UniDiffuser 的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将融合架构在大规模训练任务中的所有环节流程都跑通。

值得一提的是,同为图文模型,UniDiffuser 比最近才切换至 DiT 架构的 Stable Diffusion 3 领先了一年。

不过,虽然都选了融合架构,但在后续产品路径的推进上,基于资源等方面的考虑,Sora 团队选择「每天基本不睡觉高强度工作了一年」all in 长视频,生数科技则选择从 2D 图像开始,再进一步拓展到 3D 和视频。

路线没有对错之分,一个基本常识是,国内创业公司,技术路线可以与 OpenAI 一样,说明目光足够长远;但商业化打法参考 OpenAI 就是自寻死路——Sora 背后是 OpenAI 的技术实力,以及微软的几乎无限制的算力支持,普通公司没有学习的资本。

也是因此,回顾整个 2023 年,生数科技主要资源都放在了图像和 3D 上。到了今年 1 月份,生数科技才正式上线 4 秒短视频生成,2 月份 Sora 发布之后,公司正式攻坚,很快便在 3 月份就突破了 8 秒的视频生成,4 月份实现 16 秒长度突破,生成质量与时长,全方面取得突破。

仅仅两个月的时间就完成从 4 秒到 16 秒的训练任务,速度令人吃惊。

背后不仅源自技术架构层面的「前瞻」,也在于通过过去图像到 3D 到视频的循序渐进,让团队积累了高效的工程化经验。

视频本质上是图像在时间序列上的扩增,可以看成连续多帧的图像,所以先从图像开始入手,基础建设类的工程化工作,比如数据的收集、清洗、标注以及模型的高效训练等经验,是可以复用的。Sora 就是这么做的:它采用了 DALL·E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。

据悉,「Vidu」也复用了生数科技在图文任务的很多经验,通过在前期的图像等任务中的准备铺垫,生数科技利用视频数据压缩技术降低了输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。

路要一步一步走,饭要一口一口吃。在这个抢夺「国产 Sora」的商业游戏中,技术上找对和认准方向是第一步;而走出「国产」特色,也是生存下去的必要条件,二者缺一不可。

以上就是关于【国产Sora的秘密 藏在这个清华系大模型团队中】的相关消息了,希望对大家有所帮助!

标签:,

相关推荐相关推荐

vivo X100 Ultra视频录制安卓一骑绝尘!这些细节超越iPhone 15 Pro Max

vivo X100 Ultra视频录制安卓一骑绝尘!这些细节超越iPhone 15 Pro Max

5月13日消息,今日,vivo举行新品发布会,备受期待的vivo X100 Ultra正式登场。 vivo X100 Ultra在视频拍摄能力全面升级,在安卓阵营一骑绝尘,甚至在部分方面超越苹果iPhone。 在发布会上,vivo将vivo X100 Ultra与iPhone 15 Pro Max进行视频录制能力对 ...

业界 5 2024-05-13
麋鹿测试世界记录被中国车打破!智己L6实测达90.96km/h

麋鹿测试世界记录被中国车打破!智己L6实测达90.96km/h

5月13日消息,智己汽车全新纯电动轿车L6上市发布会正在进行中,官方公布了一项令人震惊的数据,那就是它的麋鹿测试车成绩达到90.96km/h ,创造了全新麋鹿测试世界纪录!

业界 14 2024-05-13
vivo X100 Ultra搭载一英寸云台级主摄:搭载独家精度跃迁 清晰度提升20%

vivo X100 Ultra搭载一英寸云台级主摄:搭载独家精度跃迁 清晰度提升20%

5月13日消息,vivo X100 Ultra今晚正式发布,新机搭载一英寸云台级主摄,堪称迄今行业最强一英寸。

业界 9 2024-05-13
2024年必玩国产3A大作!《黑神话:悟空》QQ开启预约

2024年必玩国产3A大作!《黑神话:悟空》QQ开启预约

5月13日消息,被玩家称为国产游戏之光的单机大作——《黑神话:悟空》将于2024年8月20日发售。

业界 7 2024-05-13
孙正义苦尽甘来吗 爆亏近440亿美元后 软银愿景基金终于赚钱了

孙正义苦尽甘来吗 爆亏近440亿美元后 软银愿景基金终于赚钱了

本周一,软银集团周一公布财报。财报显示,在已经连续爆亏两年之后,被软银CEO孙正义予以厚望的愿景基金终于在上一财年实现了盈利。

业界 9 2024-05-13
力压小米SU7四驱版:智己L6极速高达308km/h!

力压小米SU7四驱版:智己L6极速高达308km/h!

5月13日消息,在智己L6上市发布会上,官方公布了该车的动力性能。 其搭载准900V碳化硅超强性能平台和飓风电机,具备最高379kW的峰值功率以及500Nm的峰值扭矩,最高转速可达每分钟21000转。 双电机四驱的智己L6 Max 超强性能版,峰值功率和扭矩达579kW和80 ...

业界 5 2024-05-13
显示效果最好的手机屏幕!vivo X100 Ultra搭载全新2K E7超色准屏

显示效果最好的手机屏幕!vivo X100 Ultra搭载全新2K E7超色准屏

5月13日消息,在今天的vivo影像新蓝图暨X系列新品发布会上,vivo X100 Ultra手机正式发布。

业界 6 2024-05-13
vivo信号最强手机!vivo X100s搭载寰宇信号放大系统:21天线、360°环绕设计

vivo信号最强手机!vivo X100s搭载寰宇信号放大系统:21天线、360°环绕设计

5月13日消息,vivo X100s今晚正式发布,除了出色的影像,新机在信号方面表现也十分强悍。

业界 6 2024-05-13
蓝厂最强直屏旗舰!vivo X100s发布:3999元起

蓝厂最强直屏旗舰!vivo X100s发布:3999元起

5月13日消息,今晚,vivo X100s正式登场,这是vivo最强悍的直屏旗舰。 售价方面,12GB+256GB售价3999元,16GB+256GB售价4399元,16GB+512GB售价4699元,16GB+1TB售价5199元。 该机首发搭载联发科天玑9300+移动平台,CPU主频最高可达3.4GHz,同时延续了上 ...

业界 6 2024-05-13
vivo首款相机!vivo X100 Ultra发布:6499元起

vivo首款相机!vivo X100 Ultra发布:6499元起

5月13日消息,今天,vivo X100 Ultra正式亮相。 售价方面,12GB+256GB售价6499元,16GB+512GB售价7299元,16GB+1TB售价7999元(卫星通信)。 这款旗舰的最大看点之一就是影像,该机配备一英寸云台级主摄,型号是全新sensor LYT-900,采用22nm制程,拥有5 ...

业界 4 2024-05-13
首发天玑9300+!vivo晒X100s系列性能:跑分超230万 多核超苹果15

首发天玑9300+!vivo晒X100s系列性能:跑分超230万 多核超苹果15

5月13日消息,今晚vivo在线上举行新品发布会,带来了新机X100s,其搭载的是天玑9300+。

业界 6 2024-05-13
1699元 vivo WATCH 3 ECG版发布:支持生成心电图报告

1699元 vivo WATCH 3 ECG版发布:支持生成心电图报告

5月13日消息,在今晚的新品发布会上,vivo WATCH 3 ECG版正式发布,售价1699元,5月31日前和vivo X系列组合购买,可享200元优惠。

业界 5 2024-05-13
目标直指特斯拉Model Y!消息称小米最早明年生产销售SUV

目标直指特斯拉Model Y!消息称小米最早明年生产销售SUV

5月13日消息,据海外媒体报道,小米公司计划最快于2025年开始生产和销售一款类似于特斯拉Model Y的SUV,这标志着小米汽车业务的重大扩张。

业界 5 2024-05-13
最强天玑旗舰 vivo X100s Pro发布:4999元起

最强天玑旗舰 vivo X100s Pro发布:4999元起

5月13日消息,今晚,vivo X100s Pro正式发布。 售价方面,vivo X100s Pro 12GB+256GB售价4999元,16GB+512GB售价5599元,16GB+1TB售价6199元。 对比X100 Pro,X100s Pro升级为天玑9300+移动平台,这颗芯片延续了上一代的全大核CPU设计,CPU主频最高可达3 ...

业界 4 2024-05-13
高通骁龙X笔记本比Intel 13代酷睿便宜一半!续航长98%

高通骁龙X笔记本比Intel 13代酷睿便宜一半!续航长98%

5月13日消息,首批基于高通骁龙X系列处理器的笔记本即将陆续登场,更多细节曝光出来,甚至是成本,不得不说Arm架构的处理器就是便宜,只有Intel 13代酷睿的一半。

业界 6 2024-05-13