AI新模型KOSMOS-G:实现零样本高保真图像生成

行情 | 2023-10-12| 15
AI新模型KOSMOS-G:实现零样本高保真图像生成

划重点:

🔍 近期,图像生成技术取得显著进展,但从广义视觉语言输入生成图像一直是未开拓领域。

🖼️ KOSMOS-G 是一个新型模型,利用多模型LLMs解决这一问题,能够从文本描述中生成详细图像。

🌟 KOSMOS-G是首个能够根据描述生成包含多个对象的图像的模型,可用于替代CLIP,并开启更多应用领域。

站长之家(ChinaZ.com)10月12日 消息:最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。微软研究、纽约大学和滑铁卢大学的研究人员引入了KOSMOS-G,这是一种利用多模型LLMs来解决这一问题的模型。

KOSMOS-G能够从文本描述和多幅图片的复杂组合中创建详细的图像,即使它以前没有见过这些示例。它是第一个能够在描述中包含各种对象或事物的图像中生成图像的模型。KOSMOS-G可以替代CLIP,这为使用ControlNet和LoRA等其他技术开辟了新的应用可能性。

KOSMOS-G采用了一种巧妙的方法来从文本和图像生成图像。它首先通过训练多模型LLM(能够同时理解文本和图像),然后与CLIP文本编码器进行对齐(擅长理解文本)。当我们为KOSMOS-G提供包含文本和分段图像的标题时,它经过训练来创建与描述匹配并遵循说明的图像。它通过使用预训练的图像解码器并利用从图像中学到的知识来在不同情境下生成准确的图像。

KOSMOS-G能够根据说明和输入数据生成图像。它经历了三个训练阶段。在第一阶段,该模型在多模型语料库上进行了预训练。在第二阶段,通过CLIP监督,训练了一个AlignerNet来将KOSMOS-G的输出空间与U-Net的输入空间对齐。在第三阶段,KOSMOS-G通过对精心策划的数据执行构成生成任务来进行微调。在阶段1,只训练MLLM。在阶段2,带有MLLM冻结的AlignerNet进行了训练。在阶段3,AlignerNet和MLLM都进行了联合训练。图像解码器在所有阶段都保持冻结状态。

KOSMOS-G在不同设置下的零样本图像生成非常出色。它可以生成有意义、漂亮且可以根据需要进行定制的图像。它可以改变上下文、添加特定风格、进行修改并添加图像的额外细节。KOSMOS-G是第一个能够在零样本设置中实现多实体VL2I的模型。

KOSMOS-G可以轻松取代图像生成系统中的CLIP,这为以前不可能的应用领域打开了令人兴奋的新可能性。通过构建在CLIP的基础上,KOSMOS-G有望推动从基于文本生成图像转向基于文本和视觉信息的组合生成图像,为许多创新应用创造机会。

KOSMOS-G是一种能够从文本和多个图像生成详细图像的模型。它采用了一种独特的训练策略,即“在指导之前对齐”。KOSMOS-G擅长制作单个对象的图像,并是首个能够在多个对象的情况下做到这一点的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术一起使用于新的应用。简而言之,KOSMOS-G是将图像生成塑造成一种语言的初步步骤。

论文网址:https://arxiv.org/abs/2310.02992

标签:, ,

相关推荐相关推荐

五一假期最后一天 下个假期不远了:端午连休3天不调休!

五一假期最后一天 下个假期不远了:端午连休3天不调休!

快科技5月5日消息,五一假期今天已经接近尾声剩最后一天了,不仅如此,下周还要上6天班,5月11日(星期六)也要上班。

行情 4 2024-05-05
2024年Q1全球平板电脑出货量微增,华为出货量大幅增长

2024年Q1全球平板电脑出货量微增,华为出货量大幅增长

【btna科技资讯】5月5日消息,根据国际数据公司(IDC)最近发布的报告,2024年第一季度,全球平板电脑出货量为3080万台,同比微增0.5%。

行情 4 2024-05-05
库克现身伯克希尔股东大会,谈及iPhone在中国市场新战略

库克现身伯克希尔股东大会,谈及iPhone在中国市场新战略

以下是根据您的要求和提供的素材创作的新闻报道: 【btna科技资讯】5月5日消息,昨日,在举世瞩目的伯克希尔-哈撒韦公司年度股东大会上,苹果公司的CEO蒂姆·库克意外现身。他此次露面不仅为大会增添了不少星光,还在接受记者采访时,分享了自己近期的中国 ...

行情 4 2024-05-05
HTC U24 Pro新机曝光:曲面屏设计与强悍配置引领潮流

HTC U24 Pro新机曝光:曲面屏设计与强悍配置引领潮流

【btna科技资讯】5月5日消息,近日,一款代号为“enodugls”的新机型在Google Play Console数据库中亮相,经确认为HTC即将推出的新品——HTC U24 Pro。 据数据库信息揭露,HTC U24 Pro将搭载一款屏幕分辨率为1080×2436的高清显示屏,像素密度高达480dpi,保 ...

行情 5 2024-05-05
三星即将推出最后一款AMD GPU芯片,Exynos 2600自主研发GPU计划曝光

三星即将推出最后一款AMD GPU芯片,Exynos 2600自主研发GPU计划曝光

【btna科技资讯】5月5日消息,近日,知名爆料人Roland Quandt透露,三星目前正致力于研发的Exynos

行情 3 2024-05-05
巴菲特:芒格曾拍桌子让投比亚迪 他是对的

巴菲特:芒格曾拍桌子让投比亚迪 他是对的

快科技5月5日消息,在日前举行的伯克希尔哈撒韦年度股东大会上,沃伦巴菲特回答了众多提问。

行情 2 2024-05-05
中国新势力销冠!五一假期四天 鸿蒙智行全系车型大定破8600台

中国新势力销冠!五一假期四天 鸿蒙智行全系车型大定破8600台

快科技5月5日消息,据多位博主晒图,华为智选车业务鸿蒙智行5月1日-4日全系车型大定突破8600台。

行情 3 2024-05-05
巴菲特称每天关注股票反而赚不了钱:会长期持有这三支股票

巴菲特称每天关注股票反而赚不了钱:会长期持有这三支股票

快科技5月4日消息,每天关注股票价格的人,反而赚不了钱。”一年一度的伯克希尔股东大会上,巴菲特在直播中说道。

行情 3 2024-05-05
北京车展闭幕:小米SU7展台累计接待超15万人!

北京车展闭幕:小米SU7展台累计接待超15万人!

快科技5月5日消息,昨天北京车展正式闭幕,小米汽车官微最新发文宣布,小米展台累计接待15多万人。

行情 3 2024-05-05
库克:中国是全球竞争最激烈的市场 iPhone销量实现了增长

库克:中国是全球竞争最激烈的市场 iPhone销量实现了增长

2024年5月4日,苹果公司CEO蒂姆·库克参加伯克希尔-哈撒韦股东大会时透露了他对中国市场前景的乐观态度。他在中国之行中感到非常享受,并表示对重新聚焦中国市场和让中国消费者爱上iPhone充满信心。

行情 1 2024-05-05
索尼Xperia 10 VI真机现身:经典“瘦高”设计回归

索尼Xperia 10 VI真机现身:经典“瘦高”设计回归

近日,索尼公司即将发布两款新手机——Xperia 1 VI和Xperia 10 VI。官方照片泄露后,更详细的设计外观逐渐浮出水面。这两款手机可能会在5月17日的公司活动上正式亮相。

行情 2 2024-05-05
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门

Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门

【新智元导读】近日访谈中,LeCun亲口证实:Meta为购入英伟达GPU已经花费了300亿美元,成本超过阿波罗登月。相比之下,微软和OpenAI打造的星际之门耗资1000亿美元,谷歌DeepMind CEO Hassabis则放出豪言:谷歌投入的,比这个数还多!大科技公司们烧起钱来是 ...

行情 3 2024-05-05
义乌“厂二代”靠这个走红,1元起步的产品,年销4亿

义乌“厂二代”靠这个走红,1元起步的产品,年销4亿

2015年,全国工商联研究室、中国民营经济研究会家族企业委员会牵头,做了一份《中国家族企业传承报告》。据其数据统计显示,未来10年,中国将有3200万家族企业迎代际传承,其中64%的领导者面临“接班难题”。

行情 3 2024-05-05
摩根大通正式发布IndexGPT,用ChatGPT方式进行投资

摩根大通正式发布IndexGPT,用ChatGPT方式进行投资

5月4日,彭博消息,全球最大金融机构之一摩根大通正式发布了IndexGPT,可自动创建“主题投资篮子”策略。

行情 1 2024-05-05
反套路的“新套路”?剧情达人借短剧翻红,广告接到手软

反套路的“新套路”?剧情达人借短剧翻红,广告接到手软

一句“真是服了你们这群颠公颠婆”,让“王妈”一跃成为短视频界的新顶流。 王妈是谁?她是剧情达人“七颗猩猩”《重生之我在霸总短剧里当保姆》系列短剧中塑造的NPC之一,一个让被迫卷入霸总短剧言情桥段、还敢直面“颠公颠婆”,并精准吐槽、获得打工人狠狠共情 ...

行情 11 2024-05-04