英伟达华人硬核AI神器，「描述一切」秒变细节狂魔！仅3B逆袭GPT-4o

科技网btna • 2025年4月27日下午3:09 • 智能 • 阅读 86

编辑：桃子

【导读】视觉AI终极突破来了！英伟达等机构推出超强多模态模型DAM，仅3B参数，就能精准描述图像和视频中的任何细节。

有了AI，谁还愿意用手配「字幕」？

刚刚，英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model（DAM），仅3B参数。

论文地址：https://arxiv.org/pdf/2504.16072

正如其名Describe Anything，上传一张图，圈哪点哪，它即可生成一段丰富的文字描述。

即便是一段视频，DAM也能精准捕捉到白色SUV，给出详细的描述。

DAM是一个专为详细局部标注（DLC）而设计的模型，即为特定区域生成详细且精确的描述。

通过两大创新，研究人员在细节与上下文之间找到平衡：

· 焦点提示：对目标区域进行高分辨率编码，就像给模型配备了一副「放大镜」，清晰捕捉到局部区域细微特征

· 局部视觉骨干网络：将精确定位的特定区域，与上下文无缝整合

换句话说，DAM不仅能放大细节看，还能放眼全局看，无论是静态图，还是动态视频，都能做到游刃有余。

网友惊叹道，「终极视觉AI突破」！

AI用「放大镜」看世界

在项目主页中，英伟达等研究团队放出了更多精彩demo。任何人通过点、框、涂鸦或掩码的交互，即可一键生成描述。

上传一张柯基在草地上欢快奔跑的图，选中柯基，让DAM去描述：

一只中等体型的狗，拥有浓密的红棕色毛发，腹部和腿部为白色。这只狗尾巴蓬松，耳朵尖立，戴着带有银色吊牌的红色项圈。它张着嘴露出牙齿，舌头伸在外面。狗呈奔跑姿势，前腿向前伸展，后腿向后伸直。

一只被挤到犄角旮旯的猫星人，DAM是这样配文的，「一只白猫，耳朵呈浅橙色，鼻子是粉色的。猫咪表情放松，眼睛微微闭着，全身覆盖着柔软的白毛」。

再比如，随手涂鸦一栋高楼，DAM可以不断放大细节，给出这幢楼更细致的描述：

一座现代风格的摩天大楼，采用流线型矩形设计，外立面排列着间距均匀的竖向条形窗。建筑呈阶梯式结构，每一层段都比下层略微内缩，形成错落有致的退台造型。建筑幕墙主要由反光玻璃面板构成，整体呈现出极具现代感的抛光效果。

甚至，DAM看着视频中的一头牛，就能直出一篇经典「小作文」：

一幅描绘棕褐色奶牛的动态序列图：这头毛色浓密的奶牛臀部带有浅色斑块，初始画面中它微微低头，透着安详的神态。随着动作展开，奶牛开始稳步前行，四肢舒展着节奏分明的步态，尾梢的簇毛随每一步轻摆，为行进增添流畅韵律。它始终保持挺拔的站姿，略微弓起的背部线条透出放松状态，肌肉结实的腿部稳健地向前迈进。整个运动过程中，奶牛保持着均匀从容的步调，每一个动作都流畅而不迫，展现出宁静自若的生命姿态。

DAM如此厉害，是如何做到的？

DAM技术架构，精准捕捉细节

与传统图像描述（概括整个场景）不同，DLC聚焦于用户指定的局部区域，来生成细致入微的描述。

想象一张照片中一只猫，你不仅需要描述「一只猫在窗台上」，还要深入些几「猫的毛发呈现柔软和灰色条纹，耳朵微微倾斜，眼睛在阳光下闪着琥珀色的光芒」。

可以看出，DLC的目标是捕捉区域的纹理、颜色、形状、显着部件等特征，同时也要保持与整体场景关联。

而在视频领域中，DLC挑战更大。

模型需要追目标区域在多个帧中的变化，描述其外观、交互、和细微动态的演变。

为了应对DLC复杂需求，Describe Anything Model引入了两大核心创新，让局部细节与全局上下文完美平衡。

焦点提示（Focal Prompt）

通过「焦点提示」机制，DAM能够同时处理全图和目标区域的放大视图。

这确保它在捕捉细微特征同时，不丢失整体场景的背景信息。

局部视觉骨干网络（Localized Vision Backbone）

DAM的视觉骨干网络通过空间对齐的图像和掩码，融合全局与局部特征。

利用门控交叉注意力层，模型将详细的局部线索与全局上下文无缝整合。

新参数初始化为0，保留了预训练能力，从而生成更丰富、更具上下文关联的描述。

这种架构让DAM在生成关键词、短语，甚至是多句式的复杂描述时，都能保持高精度和连贯性。

DLC-SDP：破解数据瓶颈

要知道，高质量的DLC数据集极为稀缺，限制了模型的训练。为此，研究团队设计了基于半监督学习的流水线（DLC-SDP），通过两阶段策略构建大规模训练数据。

阶段一，是从分割数据集扩展。利用现有分割数据集短标签（猫），通过视觉-语言模型生成丰富的描述（灰色短毛猫，耳朵直立。

阶段二，自训练未标记的图像，通过半监督学习，DAM对未标记的网络图像生成初始描述，并迭代精炼，形成高质量的DLC数据。

DLC-Bench：重定义评估标准

那么，如何公平地评估DLC模型。

传统方法主要依赖文本重叠，但这无法全面反映描述的准确性和细节。

为此，研究团队提出了全新基准DLC-Bench。通过LLM判断，检查描述的正确细节和错误缺失，而非简单对比文本。

DAM仅能生成详细描述，还具备强大的灵活性和交互性。

指令控制描述

你可以根据需求调整描述的详细程度和风格。

零样本区域问答

而且，无需额外训练，DAM就能回答关于特定区域的问题。

碾压GPT-4o，刷新SOTA

在DLC-Bench和其他7个涵盖图像与视频的基准测试中，DAM全面超越现有模型，树立了新的标杆。

如下表2所示，DAM在具有挑战性的 PACO 基准测试中表现出色，创下了89高分。

而在零样本评估在短语级数据集Flickr30k Entities上，新模型相比之前的最佳结果平均相对提升了7.34%。

此外，零样本评估在详细描述数据Ref-L4 上，DAM在基于短/长语言的描述指标上分别实现了39.5%和13.1%的平均相对提升。

在研究人员提出的DLC-Bench测试中，DAM在详细局部描述方面优于之前的仅API模型、开源模型和特定区域VLM。

下表6所示，DAM在详细局部视频字幕方面刷新SOTA。

总而言之，DAM的优势主要有三大点：更详细、更准确；更少幻觉；多场景适用。

它的强大能力为众多应用场景打开了大门，未来诸如数据标注、医疗影像、内容创作等领域，都可以加速落地。

作者介绍

Long (Tony) Lian

Long (Tony) Lian目前是UC伯克利电子工程与计算机科学博士研究生，师从Adam Yala教授和Trevor Darrell教授。

他的研究主要聚焦于，通过强化学习（RL）开发具备推理能力的大模型（LLM）与视觉语言模型（VLM）。

此前，他曾在英伟达研究院Deep Imagination Research团队实习。

Long (Tony) Lian本科毕业于UC伯克利计算机科学专业，师从Stella Yu教授。

参考资料：

https://x.com/YinCuiCV/status/1915054443734986912

https://describe-anything.github.io/

内容来源于网络。发布者：科技网btna，转转请注明出处：https://www.btna.cn/6010.html

赞 (0)

0 0

GPT-4o偷偷升级，变身聊天鬼才！新版STEM智力飙升，生图却惨遭削弱？

上一篇 2025年4月27日下午3:09

《老滚4RE》已有近700款MOD："颜艺"剑身瞩目吸睛

下一篇 2025年4月27日下午3:10

智能

CMU辍学创业，她成了全球最年轻白手起家女亿万富翁！

编辑：英智【导读】她21岁创立AI公司，靠5%股份逆风翻盘！Lucy Guo如何从自学编程到辍学创业，超越Taylor Swift，成为全球最年轻的白手起家女亿万富翁？最近，30岁的郭如意（Lucy Guo）火出圈了！她超越了流行天后Taylor Swift，成为全球最年轻的白手起家女亿万富翁。 Scale AI最新估值为250亿美元，这也让联合创始人…

科技网btna
2025年4月26日
75000
智能

传华为或量产卷轴屏手机又是行业首发？猜猜价格多少

在当前的手机行业内，华为一直走在创新的前列。2024年9月，华为推出了全球首个量产的三折叠屏手机。2025年3月，华为宣布将发布一款专为原生鸿蒙打造的全新形态手机。而近日，CNMO注意到，有爆料人士透露，华为还将量产卷轴屏幕手机。若此消息属实，华为很有可能会成为第一个量产卷轴屏幕手机的厂商，而且是行业内唯一同时拥有小折叠、大折叠、外折叠、三折叠、卷轴屏的手…

科技网btna
2025年3月14日
539000
智能

老公和ChatGPT聊出精神病，她光速离婚

编辑：KingHZ 【导读】只因沉迷于ChatGPT的对话，一位用户竟然陷入「螺旋星之子」的妄想，最终情感破裂；还有程序员为了编程任务而使用ChatGPT，诱发精神病。AI对人类的情感影响，可谓是迷雾重重…… 类似ChatGPT这样的AI应用，总是给人带来好的影响吗？ Reddit网友分享了AI如何导致他们的爱人陷入妄想。这些妄想常常混杂着精神狂热和超自然…

科技网btna
2025年5月8日
55000
智能

刚刚，ICML 2025录用结果公布！好评论文惨遭拒，审稿人敷衍引全网怒喷

编辑：桃子【导读】ICML 2025录用结果新鲜出炉！今年共有3,260篇论文被录用，录用率26.9%。然而，这届评审质量再掀热议，审稿人敷衍参评各种乌龙被曝出。 ICML 2025录用结果，终于公布了！今年，顶会共提交了12107篇有效投稿（不包括「桌拒」论文）。其中，3260篇论文被接收，录用率为26.9%。值得一提的是，ICML总投稿数量每年激增…

科技网btna
2025年5月2日
77000
智能

苹果提出原生多模态Scaling Law！早融合+MoE，性能飙升秘密武器

编辑：英智【导读】研究揭示早融合架构在低计算预算下表现更优，训练效率更高。混合专家（MoE）技术让模型动态适应不同模态，显着提升性能，堪称多模态模型的秘密武器。如今，打造强大的多模态模型是AI领域的重要目标。一种常用方法是把单独预训练好的模型组合起来，比如把训练好的视觉编码器连接到LLM的输入层，再进行多模态训练。然而，单模态预训练可能会带来一些偏差…

科技网btna
2025年5月5日
67000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信