异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

编辑:犀牛 英智

【导读】悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。

想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。

同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

受此启发,UCSD的华人研究者用游戏《逆转裁判》(Ace Attorney)测试AI的推理能力。

《逆转裁判》以错综复杂的故事情节和扣人心弦的法庭对决着称。

这款游戏堪称测试模型的完美舞台:AI化身侦探,收集线索、揭露矛盾,最终挖掘真相。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

研究者让当前最顶尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆转裁判》中接受考验,看它们能否喊出「反对!」,扭转案情,揭开谎言背后的真相。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

和侦小说一样,模型玩家得把线索、证据串起来,揭露证词中的矛盾,抓住真凶。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

测试中,AI模型要参与紧张的法庭盘问环节。它要敏锐地找出证词中的漏洞,拿出正确的证据进行反驳。每个关卡有5次机会,犯错空间有限。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

团队测试了多款顶尖的AI多模态模型,包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

结果显示,o1和Gemini 2.5 Pro表现最佳,均晋级第4关。虽然未能通关,但o1在应对最复杂案件时,略胜Gemini 2.5 Pro一筹。

GPT-4.1与Claude 3.5表现相当。尽管GPT-4.1据称比GPT-4o有所提升,但这次测试中的表现与其持平。

Llama-4 Maverick一次没对,零分垫底!

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

为什么它很难?

《逆转裁判》游戏对AI模型十分困难,主要是因为模型需要有以下能力:

  • 长文本推理:需要比对之前的对话和证据,发现证词中的矛盾点。

  • 视觉理解:准确识别能反驳虚假陈述的图片。

  • 策略决策(游戏设计):动态变化的案件中,决定何时追问、出示证据或暂不行动。不仅要给出答案,还要在正确时机采取行动。

游戏设计要求AI把理解转化为有情境依据的行动,让它不只局限于处理文本或视觉任务。

因为AI需要推理情境化的行动空间,而非简单死记硬背,所以更不容易出现过拟合。

性价比哪家强

Gemini 2.5 Pro重新定义了性价比。

在性能相当的情况下,Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍,甚至比GPT-4.1还便宜一点。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

通过第1关的模型成本对比中,o1的API调用次数最少,总成本却是最高的。

调用次数体现的是策略,而非推理能力。因为深入挖掘证词,自然会触发更多请求。

进入更高关卡后,随着对话篇幅增加,o1的成本激增。

在第2关(一个很长的案例)中,o1的成本超过$45.75,而Gemini 2.5 Pro仅需$7.89,差距惊人!

注意:

  • Gemini 2.5 Pro使用内置token计数方法,将所有图片都按258个token计算,因此实际成本可能略高。

  • o1隐藏推理内容存在不确定性,其输出成本也可能被低估了。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

目前团队已将项目开源,可以在里面查看如何设置游戏和LLM。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

项目地址:https://github.com/lmgame-org/GamingAgent

除此之外,项目中还有更多经典游戏能测试AI模型的性能。

推箱子游戏

推箱子(Sokoban)是一款经典的单人游戏,以深邃的策略性着称。

推箱子的玩法简单直观,但挑战性极高。

玩家在一个由方格组成的迷宫中操作角色,通过逻辑思考和规划,将箱子推到目标位置。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

2048游戏

这是一款数字益智游戏,玩家通过滑动方块合并相同数字,最终目标是合成2048方块。

策略上,应该优先保持最大数字在角落,规划滑动方向以避免方块堆积,灵活调整以应对随机出现的数字。

下图可以看出,Claude 3.7 玩起2048来还是挺丝滑的,能持续玩很多步。相比之下,GPT 4o不知道为什么,玩上几步就开始卡上了。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

俄罗斯方块

俄罗斯方块是一款风靡全球的经典游戏。

玩家需通过移动和旋转方块,拼凑完整横行以消除得分,尽可能延长游戏时间或获得高分。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

此外,还有超级马里奥、糖果粉碎传奇等多款游戏。

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

参考资料:

https://x.com/haoailab/status/1912231343372812508

https://huggingface.co/spaces/lmgame/game_arena_bench

https://lmgame.org/

内容来源于网络。发布者:科技网btna,转转请注明出处:https://www.btna.cn/4317.html

(0)
科技网btna的头像科技网btna
上一篇 2025年4月18日 上午9:51
下一篇 2025年4月18日 上午9:51

相关推荐

  • 突发,美商务部叫停「AI扩散规则」藏杀机!英伟达市值再破3万亿

    编辑:桃子 【导读】昨晚,美商务部正式废止《AI扩散规则》,同时加码全球半导体出口管制,精准打击中国AI发展。 《AI扩散规则》生效前夜,特朗普政府正式叫停。 13日晚,美商务部工业和安全局(BIS)宣布,撤销拜登签署的《AI扩散规则》(即将在5月15日生效)。 与此同时,他们又出台了加强全球半导体出口管制的新措施,这些限制可谓是又准又狠。 具体包括以下三点…

    2025年5月14日
    14300
  • 传真我开始测试2K OLED直屏 支持超声波 新旗舰搭载?

    近日,数码闲聊站透露,realme真我已经开始测试一块2K LTPS直屏,屏幕尺寸在6.78英寸左右,常规大屏设计,支持3D超声波指纹,使用金属中框。如果这块屏幕可以应用在真我下一代旗舰手机上,那么将补齐真我旗舰机型的一块短板。 2024年11月4日,真我GT 7 Pro发布,搭载高通骁龙8至尊版移动平台,是彼时价格最便宜的高通骁龙8至尊版移动平台之一,拥有…

    2025年3月20日
    28500
  • 毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔

    编辑:Aeneas 犀牛 【导读】o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了? OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然—— 它能准确破解你的地理位置! 就在刚刚,Lanyrd…

    2025年4月27日
    5600
  • 2万人大裁员!AI掉队、工厂暂停扩张,英特尔复兴之路注定艰难

    编辑:犀牛 【导读】英特尔再次掀起裁员风暴!计划裁员超20%,这是新任CEO陈立武上任后的首次重大重组。面对AI领域落后英伟达、连续三年营收下滑的困境,英特尔试图通过精简管理、重塑工程文化来扭转颓势。 英特尔再次开启大裁员! 据彭博社报道,英特尔本周将宣布裁员超20%! 一下子裁掉2万多人。 这不是英特尔近年来的首次裁员了。 根据他们去年8月公布的裁员计划,…

    2025年4月24日
    7400
  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收

    编辑:英智 【导读】当AI闯入营销界,会掀起怎样的风暴?哥大辍学天才Kennan打造的Icon,以1美元成本颠覆6000亿广告市场,30天狂揽500万美元ARR,用技术改写行业。 通过学习数千个爆火的广告,Icon在营销方面的知识,已经超越了全球最贵的营销大师Gary Vee。 Icon成绩相当亮眼,只用30天就实现了从0增长到500万美元的ARR(年度经常…

    2025年5月2日
    4900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信