异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

科技网btna • 2025年4月18日上午9:51 • 智能 • 阅读 79

编辑：犀牛英智

【导读】悬疑小说的最后一页，隐藏着罪犯的真相。《逆转裁判》的法庭上，真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台，o1、Gemini 2.5 Pro等模型化身「侦探」，测试AI的推理极限。

当谈到AI为何能从「预测下一个词」中诞生智慧时，Ilya Sutskever曾用一个生动的比喻来解释。

想象你在读一本悬疑小说，如果仅凭前面的线索就能在最后一页推断出罪犯是谁，那么你对这个故事的理解无疑是深刻的。

同样，AI通过学习海量文本，掌握了从字面到语义的「线索」，展现出惊人的智能。

受此启发，UCSD的华人研究者用游戏《逆转裁判》（Ace Attorney）测试AI的推理能力。

《逆转裁判》以错综复杂的故事情节和扣人心弦的法庭对决着称。

这款游戏堪称测试模型的完美舞台：AI化身侦探，收集线索、揭露矛盾，最终挖掘真相。

研究者让当前最顶尖的AI模型（GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等）在《逆转裁判》中接受考验，看它们能否喊出「反对！」，扭转案情，揭开谎言背后的真相。

和侦小说一样，模型玩家得把线索、证据串起来，揭露证词中的矛盾，抓住真凶。

测试中，AI模型要参与紧张的法庭盘问环节。它要敏锐地找出证词中的漏洞，拿出正确的证据进行反驳。每个关卡有5次机会，犯错空间有限。

团队测试了多款顶尖的AI多模态模型，包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。

结果显示，o1和Gemini 2.5 Pro表现最佳，均晋级第4关。虽然未能通关，但o1在应对最复杂案件时，略胜Gemini 2.5 Pro一筹。

GPT-4.1与Claude 3.5表现相当。尽管GPT-4.1据称比GPT-4o有所提升，但这次测试中的表现与其持平。

Llama-4 Maverick一次没对，零分垫底！

为什么它很难？

《逆转裁判》游戏对AI模型十分困难，主要是因为模型需要有以下能力：

长文本推理：需要比对之前的对话和证据，发现证词中的矛盾点。
视觉理解：准确识别能反驳虚假陈述的图片。
策略决策（游戏设计）：动态变化的案件中，决定何时追问、出示证据或暂不行动。不仅要给出答案，还要在正确时机采取行动。

游戏设计要求AI把理解转化为有情境依据的行动，让它不只局限于处理文本或视觉任务。

因为AI需要推理情境化的行动空间，而非简单死记硬背，所以更不容易出现过拟合。

性价比哪家强

Gemini 2.5 Pro重新定义了性价比。

在性能相当的情况下，Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍，甚至比GPT-4.1还便宜一点。

通过第1关的模型成本对比中，o1的API调用次数最少，总成本却是最高的。

调用次数体现的是策略，而非推理能力。因为深入挖掘证词，自然会触发更多请求。

进入更高关卡后，随着对话篇幅增加，o1的成本激增。

在第2关（一个很长的案例）中，o1的成本超过$45.75，而Gemini 2.5 Pro仅需$7.89，差距惊人！

注意：

Gemini 2.5 Pro使用内置token计数方法，将所有图片都按258个token计算，因此实际成本可能略高。
o1隐藏推理内容存在不确定性，其输出成本也可能被低估了。

目前团队已将项目开源，可以在里面查看如何设置游戏和LLM。

项目地址：https://github.com/lmgame-org/GamingAgent

除此之外，项目中还有更多经典游戏能测试AI模型的性能。

推箱子游戏

推箱子（Sokoban）是一款经典的单人游戏，以深邃的策略性着称。

推箱子的玩法简单直观，但挑战性极高。

玩家在一个由方格组成的迷宫中操作角色，通过逻辑思考和规划，将箱子推到目标位置。

2048游戏

这是一款数字益智游戏，玩家通过滑动方块合并相同数字，最终目标是合成2048方块。

策略上，应该优先保持最大数字在角落，规划滑动方向以避免方块堆积，灵活调整以应对随机出现的数字。

下图可以看出，Claude 3.7 玩起2048来还是挺丝滑的，能持续玩很多步。相比之下，GPT 4o不知道为什么，玩上几步就开始卡上了。

俄罗斯方块

俄罗斯方块是一款风靡全球的经典游戏。

玩家需通过移动和旋转方块，拼凑完整横行以消除得分，尽可能延长游戏时间或获得高分。

此外，还有超级马里奥、糖果粉碎传奇等多款游戏。

参考资料：

https://x.com/haoailab/status/1912231343372812508

https://huggingface.co/spaces/lmgame/game_arena_bench

https://lmgame.org/

内容来源于网络。发布者：科技网btna，转转请注明出处：https://www.btna.cn/4317.html

赞 (0)

0 0

华硕RTX 5060 Ti系列来袭：首发四大系列，甜品显卡新选

上一篇 2025年4月18日上午9:51

七彩虹iGame多款GeForce RTX 5060 Ti新品上架 3199元起畅享2K光追

下一篇 2025年4月18日上午9:51

智能

曝小米Civi 5 Pro二季度末发布厚度7开头内置6K电池

现阶段，小米品牌（不含REDMI）旗下手机产品线主要有数字系列、MIX系列以及Civi系列。其中，数字系列销量最佳，而Civi系列相较于另外两个系列，市场热度一直不算高。因此，小米接下来可能会在该系列加大投入。近日，就有博主爆料了小米Civi 5 Pro的配置信息，相比上一代，亮点颇多。据博主透露，小米Civi 5 Pro的厚度最终定档7.xmm，内置60…

科技网btna
2025年3月20日
305000
智能

老公和ChatGPT聊出精神病，她光速离婚

编辑：KingHZ 【导读】只因沉迷于ChatGPT的对话，一位用户竟然陷入「螺旋星之子」的妄想，最终情感破裂；还有程序员为了编程任务而使用ChatGPT，诱发精神病。AI对人类的情感影响，可谓是迷雾重重…… 类似ChatGPT这样的AI应用，总是给人带来好的影响吗？ Reddit网友分享了AI如何导致他们的爱人陷入妄想。这些妄想常常混杂着精神狂热和超自然…

科技网btna
2025年5月8日
54000
智能

Hinton签署联名信，公开抵制OpenAI重组！10名前OpenAI员工也参与了

编辑：桃子【导读】日前，诺奖得主、AI教父Geoffrey Hinton联合10名前OpenAI员工及其他业内人士联合发表公开信反对OpenAI的重组计划，理由非常直接：OpenAI违背了他们的慈善宗旨，即确保AGI的安全开发和造福人类。在刚刚签署的公开信中，Hinton表示，OpenAI独特的非营利法律结构是防止商业利益凌驾使命的保障，重组将削弱公众利…

科技网btna
2025年4月29日
93000
智能

黄仁勋放话：英伟达全员拥抱智能体！

编辑：英智 KingHZ 【导读】软件开发的未来已来！每位工程师都将配备AI智能体，它们将嵌入日常开发，优化代码、发现漏洞、加速原型设计。黄仁勋认为，未来每个人都将指挥多个AI助手，生产力呈指数级增长。黄仁勋放话：英伟达将全员配AI助手！这可不是随便画个大饼，而是英伟达正在大刀阔斧搞的变革，这趋势可能席卷整个科技圈。 Meta的小扎、微软CEO纳德拉、A…

科技网btna
2025年5月11日
31000
智能

AI包办79%代码，程序员饭碗不保！前端开发要凉，人类只配改Bug？

编辑：英智犀牛【导读】还在用AI改改小Bug？已经out了！最新研究发现，Claude Code上79%的任务直接由AI自动完成。从前端界面到自动化任务，AI正席卷编程。就在昨天，Anthropic再次更新了他们的人类经济指数报告。这次他们把研究重点放到了编码上。在分析了50万份有关编码的用户对话后，他们总结出了一些趋势。有意思的是，从这份报告中…

科技网btna
2025年4月29日
74000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信