字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

行情 | 2024-04-27| 20
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin,专为视觉语言时代设计。

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。

最终这一成果,入选计算机视觉顶会CVPR2024

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。

  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。

  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。

  • 第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

论文链接:

https://arxiv.org/pdf/2404.02132.pdf

项目主页:

https://beckschen.github.io/vitamin

标签:, ,

相关推荐相关推荐

无需网络,也能通话!OPPO Reno12 Pro或成首款无网蓝牙手机

无需网络,也能通话!OPPO Reno12 Pro或成首款无网蓝牙手机

【btna科技资讯】5月9日消息,近日,数码博主@数码闲聊站 公布了一款OPPO新机的相关信息,结合之前的爆料,这款新机很可能是即将发布的Reno12

行情 7 2024-05-09
“听劝”外国人,掘金小红书

“听劝”外国人,掘金小红书

“活体外国人写评论区所有英语作业。” 法国博主@Sahil星辰 在小红书写下这段文案,配上“伤心偷妈头”的表情包,底下的小红书用户毫不客气,纷纷掏出自己的随堂练习,求问这道题是选A还是选B。在他的另一篇笔记中,双方的身份颠倒过来,占据母语优势的用户给 ...

行情 12 2024-05-09
智者无畏!Vidda发布X Ultra系列AI电视和C2系列三色激光投影

智者无畏!Vidda发布X Ultra系列AI电视和C2系列三色激光投影

5月8日,海信旗下年轻科技潮牌Vidda在北京正式发布新品AI电视和三色激光智能投影。“智者无畏”的主题展现了Vidda品牌对年轻人场景的全新探索和无惧无畏的精神面貌,而强大的产品阵容更是再一次诠释了质价比的定义。

行情 11 2024-05-09
效仿短剧,知乎短文“土味”出圈

效仿短剧,知乎短文“土味”出圈

“我看的小说多,让我一边地铁跑酷一边念给你听。”正如一位网友的调侃,“解压视频+小说推荐”的模式,已经成为现目前下作网文推广时的最常见选项。

行情 11 2024-05-09
贵州兴仁发现一处巨大脚印:规模之大世间罕见

贵州兴仁发现一处巨大脚印:规模之大世间罕见

5月9日消息,据国内多家媒体报道,贵州兴仁回龙镇一山顶发现一处巨大脚印”。 据介绍,这是明朝天启六年(1626年)所筑石基”城。 提到建筑,我们经常会以唐宋元明清来划分,但细究起来,明代建筑有其独特的风格。 明代的建筑样式,上承宋代营造法式的传统 ...

行情 15 2024-05-09
最高降800元!拼多多百亿补贴上线苹果全新iPad Air 6:4199元起

最高降800元!拼多多百亿补贴上线苹果全新iPad Air 6:4199元起

快科技5月9日消息,在近日举行的苹果春季新品发布会上,苹果iPad Air 6正式发布,提供11英寸和13英寸两种版本,起售价分别为4799元和6499元。

行情 6 2024-05-09
Krea AI正式发布视频生成功能 可自定义视频首尾帧

Krea AI正式发布视频生成功能 可自定义视频首尾帧

站长之家(ChinaZ.com)5月9日 消息:Krea AI 正式发布了其最新的视频生成功能,这一更新包括了自定义视频首尾帧和为每张图片定义提示词的能力。这些新功能在易用性上进行了显著改进,并且现在可以自动将生成的视频高清化,但仅限会员使用。

行情 7 2024-05-09
AlphaFold 3:革命性的AI生物分子预测工具 - 使用教程与科学探索

AlphaFold 3:革命性的AI生物分子预测工具 - 使用教程与科学探索

AlphaFold 3 是什么? AlphaFold3 是一款开创性的AI模型,它通过预测蛋白质、DNA、RNA、配体等生命分子的结构和相互作用,极大地推进了我们对生物世界和药物发现的理解。与传统方法相比,AlphaFold3 在预测蛋白质与其他分子类型的相互作用方面,准确度至 ...

行情 8 2024-05-09
法国AI公司Mistral AI即将完成新融资 估值飙升至60亿美元

法国AI公司Mistral AI即将完成新融资 估值飙升至60亿美元

站长之家(ChinaZ.com)5月9日 消息:法国人工智能初创公司Mistral AI近日宣布即将达成一项新的融资协议,其估值高达60亿美元,较半年前翻了近三倍。这一成就不仅彰显了公司在人工智能领域的强大实力,也反映了市场对其未来发展潜力的高度认可。

行情 7 2024-05-09
真我realme推出真我GT Neo6,搭载骁龙8s 电竞体验再升级

真我realme推出真我GT Neo6,搭载骁龙8s 电竞体验再升级

【btna科技资讯】5月9日消息,今日真我realme举办了备受瞩目的新品发布会,推出了全新的真我GT

行情 13 2024-05-09
摩托罗拉Razr 50 Ultra手机曝光:内存升级不加价

摩托罗拉Razr 50 Ultra手机曝光:内存升级不加价

【btna科技资讯】5月9日消息,近日科技媒体dealntech公开了一篇博文,详细披露了摩托罗拉新款手机Razr 50

行情 8 2024-05-09
2099元起,realme发布真我GT Neo6:搭载强劲的高通骁龙8s Gen3处理器!

2099元起,realme发布真我GT Neo6:搭载强劲的高通骁龙8s Gen3处理器!

【btna科技资讯】5月9日消息,realme今日正式推出了全新的旗舰手机真我GT Neo6系列。与此前发布的真我GT Neo6

行情 8 2024-05-09
日媒揭示:索尼Xperia手机销量暴跌 市场份额跌至3%

日媒揭示:索尼Xperia手机销量暴跌 市场份额跌至3%

【btna科技资讯】5月9日消息,近日,日媒对索尼Xperia手机在日本市场的销售情况进行了报道,指出其销售陷入困境,一年内销量意外下降40%,市场份额已降至3%左右。

行情 11 2024-05-09
性能与散热双重突破:真我GT Neo6携第三代骁龙8s亮相 电竞王者归来

性能与散热双重突破:真我GT Neo6携第三代骁龙8s亮相 电竞王者归来

【btna科技资讯】5月9日消息,今日下午2点,真我GT Neo6的新机发布会圆满落幕,此次发布会创新性地采用了AI数字人作为主讲人,由真我realme副总裁、全球营销总裁、中国区总裁徐起的数字人形象进行全程讲解。真我GT Neo6以其卓越的性能和电竞体验,再次巩 ...

行情 11 2024-05-09
三星S24系列在日本销量飙升 有望挑战苹果市场地位

三星S24系列在日本销量飙升 有望挑战苹果市场地位

【btna科技资讯】5月9日消息,三星在2024年年初发布的S24系列旗舰智能手机在全球范围内取得了显著的销售成绩。尽管日本市场的上市时间相对较晚,但三星S24系列依然在短时间内取得了令人瞩目的成绩。

行情 8 2024-05-09