AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点

互联网 | 2022-11-27| 64
AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点

"人类的可贵品质在于追求真理. "-西塞罗

本周二,Meta提出的人工智能Cicero成为AI领域的热点新闻。通过与人玩在线“外交”游戏,它训练自己的技能成为大师,在它玩过的不止一个游戏中排名前10%。

西塞罗结合了类似AlphaGo的策略推理能力和类似GPT 3的语言组织能力。在每个游戏中,它会检查每个玩家的游戏状态和对话历史,从而预测其他玩家的。它可以制定自己的计划,并通过人类语言与其他玩家协调实施自己的策略。几乎没人知道是AI。

对于人工智能行业来说,西塞罗的出现或许意味着一个突破。纽约大学教授加里·马库斯(Gary Marcus)在最近的一篇文章中表示,“西塞罗在很大程度上是一个奇迹,它实现了迄今为止AI最深入和最广泛的语言和动作的融合,以及前所未有的与人类复杂交互的能力。」

我们知道,Gary Marcus对于AI发展方向的看法,一直与Meta的AI总监LeCun针锋相对。这一次,马库斯对梅塔的研究做出了罕见的全面正面评价。是什么让他放下了偏见?看看这篇文章怎么说。

马库斯·图留斯·西塞罗是公元前106年至公元前43年罗马共和国晚期一位活跃的政治家、演说家和作家。两千多年后,他在历史和哲学上的重要性仍在被讨论。11月22日顶级学术期刊《科学》公布了同名计算机程序。它是一个强大的人工智能系统,可以和人类玩策略。它的影响力刚诞生三天我们无法下结论,也未必能像西塞罗一样大放异彩。

外交是一个需要充分沟通的复杂游戏,至少在最近50年里,它一直被视为人工智能的重要挑战。要想赢,参与者不仅需要知道策略,还需要结盟、谈判、说服、威胁,偶尔学会作弊。因此,它给AI带来的挑战,远远超出了玩围棋、象棋等游戏的系统,或者那些在不太复杂的环境中进行对话的聊天机器人所面临的挑战。

毫无疑问,西塞罗取得的成绩确实令人印象深刻。尽管AI还没有达到或接近世界冠军的水平,但该系统可以将语言与游戏结合起来。在网络版的《外交》中,它在混合的专业人士和业余爱好者中排名前10%。游戏和语言的使用是如此自然,以至于只有一个人类玩家怀疑它是机器人。

许多问题出现了:它是如何工作的?对AI其他持续性挑战有影响吗?它真的像Meta AI声称的那样,“在构建一个具有谈判、说服和与他人合作技能的AI方面取得了突破”?对于一个能够在真实情境下与人类进行智能交互的系统来说,进步了多少?我们是否需要担心Meta建立了一个可以操纵人类的人工智能来实现其统治世界的目标?正如我们的一个朋友所说的,也许这很严重?鉴于欺骗策略,我们是否面临某种新的风险?

值得称赞的是,Meta AI已经发布了Cicero开源代码,以便研究社区可以开始探索这些问题:https://github.com/facebookresearch/diplomacy_cicero

对于AI算法来说,不先检查系统的架构,总是很难回答关于影响的问题。原来西塞罗的架构与AI近年来讨论的大部分内容大相径庭。

首先,你要认识到西塞罗是一个非常复杂的系统。它的高级结构比精通围棋和象棋的AlphaZero或纯粹关注单词序列的GPT-3复杂得多。这些复杂性中的一些可以在流程图的中立性中揭示出来。虽然最近的很多模型都类似于数据输入和动作输出,中间有某种统一的系统(比如Transformer),但Cicero在任何学习或培训之前都已经预先结构化了很多,通过采用设计良好的定制架构,划分为多个模块和流程,每个模块和流程都有自己的专业化。

这只是复杂性的开始。就评价其整体意义而言,西塞罗的许多最重要的特点在于深藏在文章补充材料中的细节。虽然这里的讨论意在为你省去大部分细节,但很明显,正确理解西塞罗并回答这些问题必然需要仔细分析。

西塞罗怎么样S2/]

外交游戏由一系列回合组成。每一轮,首先所有玩家私下交流,一对一;他们可以建立秘密联盟,协商条款等等。审议结束后,将同时公布。

在每一步行动中,西塞罗都要决定和谁谈,谈什么,最后采取什么行动。这些决定中的每一个都取决于竞争的当前状态。西塞罗要考虑的因素包括之前的比赛和交流历史,以及其他玩家在当前行动中对其说过的话。

在这种情况下,做出正确的决定会变得非常复杂。如果你在玩外交,你接下来应该怎么做显然取决于其他玩家会怎么做,就像他们会怎么做取决于他们认为你会怎么做一样。更复杂的是,你可以(希望)通过他们说的话来衡量他们要做什么,玩家也可以通过交流来影响彼此的预测。但是,你说什么最终还是要看你想让他们做什么,这又回到了你想做什么的问题。

支撑西塞罗模型的核心理论是博弈论。博弈论最早是在20世纪30年代发展起来的,现在已经非常强大,这为西塞罗模型提供了一个很强的出发点。博弈论在西塞罗如何选择战略中起着关键作用。Meta AI的早期工作在非语言简化版外交中得到了很好的验证和发展,令人印象深刻。

但是,博弈论本身就是一种行动理论。根本不是语言理论。因此,Cicero团队必须将博弈论策略选择与为纯语言任务(如翻译或问答)开发的自然语言技术相结合。将所有这些结合成一个和谐的整体是非常具有挑战性的。坦白说,Meta AI团队的成功给我们留下了深刻的印象。

西塞罗在游戏中的架构可能不可避免地包含了一系列高度复杂的交互算法。这里不打算全面描述,但我们看到两个关键点。首先,西塞罗的整体架构不是简单地从基础数据中自发生成,而是一个精致的工程结构,有许多移动的部分,是由不同类型的AI专家组成的广泛团队结合概率分析博弈论精心设计的。

第二个要点是,Cicero在做出决策时会利用许多不同类型的信息,包括:

  • 游戏的当前状态;

  • 所有以前的历史动作和对话;

    语言模式的知识,基于类似GPT-3的纯语言模型,让西塞罗知道如何合理回应其他玩家;

    理解语言和行动的关系,这让西塞罗知道如何告诉盟友或潜在盟友它打算做什么;

    每条交换消息之间的时间间隔(秒)。

    重要的是,西塞罗虽然与人类竞争,但其运作模式与人类并不完全相同。例如,人类玩家可能试图对其他玩家的精神状态和互动进行分类。西塞罗在没有直接表达或描述这些观点的情况下成功了。

    西塞罗如何训练

    像几乎所有其他实用的人工智能一样,西塞罗的构建也大量使用了机器学习技术。培训有许多不同的部分,其中一些涉及大量的劳动创造。该系统最终依赖于四种定制数据,这比典型深度学习系统中使用的数据要多得多。有相当数量的人工构建的数据(这在深度学习领域也很少见),包括:

  • 在在线平台上玩的125,300个人类游戏的语料库(其中40,400个包括对话,总共有12,900,000个单独的消息);

  • 一个大的语言模型,似乎是在亿万单词的基础上训练出来的,在游戏对话的语料库中进一步微调;

    数以千计的专家为评估Cicero初步版本产生的信息质量而提出的意见;

    大量的合成数据集,其中许多是手工构建的,用于训练各种模块。例如,为了训练过滤器排除无效信息,他们创建了手动无效信息集;另一个数据集训练西塞罗摆脱了对棋盘上实体的误判倾向;还有一个提高他们对否定句理解的数据集,一个自我游戏的语料库用于强化学习等等。

    有了这些精心设计的数据,系统需要从游戏动作方面学习语言中信息的含义。例如,它需要学习“你想在比利时支持荷兰吗?这一系列单词表示游戏中标记为“NTH S BEL”的动作。

    为此,西塞罗做了这样的假设:一般来说,A和B之间对话中的句子指的是A和B在对话结束时采取的行动。系统会在接下来的对话中寻找不诚实的陈述。如果B在某个时候对A说“上一轮你骗了我”,那么说明A上一轮对B的声明不应该被注释为A的实际行动。

    当这些能力放在一起,结果是惊人的。

    范围和限制

    西塞罗在很多方面都是一个奇迹:它实现了迄今为止动态世界中任何人工智能系统最深入、最广泛的语言和动作融合,它还以前所未有的方式成功地与人类进行了互动。

    但在如何做到这一点上也是不同凡响的。令人震惊的是,与时代的许多趋势相反,西塞罗严重依赖手工生产,包括数据集和架构。从这个意义上说,它在许多方面更让人想起经典的“老式人工智能”,而深度学习系统往往更少结构化,更少针对具体问题进行定制。它比最近的人工智能系统更具有自然性。

    此外,值得注意的是,西塞罗的某些方面使用了神经符号的人工智能方法,比如语言中信息与动作符号表征的相关性,对对话结构的固有(先天)理解等等。

    换句话说,我们不知道西塞罗将军的特殊性到底有多大。

    据我们所知,西塞罗只在一项任务上接受过考验,而这项任务正是其精心设计的任务:外交。它不能立即应用于挑战,如客户服务或指导家用机器人的行动,或几乎任何其他事情。即使在外交环境中,它的范围也是有限的。

    例如,人类玩家可能能够很好地应对另一个棋盘(例如1400年的欧洲地图),或者稍微修改一下行动规则(例如部队可以穿越空,而不仅仅是陆地或海洋)。然而,在西塞罗,没有简单的方法来“呈现”任何这样的规则或地图变化,其训练与描述标准外交委员会行动细节的语言有很大关系。

    最好的假设是,如果你用其他规则玩外交,系统将想要几乎从零开始重新训练。然而,重新训练西塞罗并不容易。如果你想建立一个版本的AlphaZero在20x20的围棋棋盘上玩,几乎不需要新的人力就可以完成,因为AlphaZero完全是在自我博弈中训练出来的。至于西塞罗,你要等到人类下了125000盘棋,才能继续实验。

    这并不意味着把西塞罗改造成其他任务很容易。正如该领域经常出现的情况一样,关键问题是,Cicero中使用的技术在多大程度上可以扩展到其他涉及行动和社会互动的情况?如果我们想要建立一个AI,并且在封闭和有限的外交环境之外与人进行一些复杂的交互,西塞罗的执行架构、训练架构或通用方法论的哪些方面会有用?

    这个系统非常复杂,我们无法有把握地预测这一点,但就目前的情况来看,我们认为推广的前景有些有限。这种工作方式可能在其他问题上有用,但如果系统应用于其他问题,如在桥牌等游戏中投标,或为项目的团队协商工作计划,或计划婚礼,则架构的具体内容可能没有太大用处。

    西塞罗的成功对通用人工智能有什么启示?

    西塞罗已经广泛使用了机器学习,但它并不是简单制造更大模型(所谓“外延最大化”)的典型代表,也不是当前流行的“端到端”机器学习的观点——即单一的通用学习算法完全适用。在执行过程中,Cicero由一系列独立且设计良好的模块组成,这些模块之间存在复杂的交互。在培训中,它利用了各种培训资料,有些是专家专门为西塞罗打造的,有些是专家手工编写的程序合成的。

    在Cicero发布的同一天,AACL就“NLP是否不限于深度学习”这一话题进行了一场友好的辩论。西塞罗可能在提醒我们,自然语言处理真的不仅仅是深度学习。

    我们最终的收获是什么?我们已经知道机器学习在一段时间内是有价值的,但现在,机器学习经常被用作万能溶剂,好像人工智能的其他部分无关紧要。西塞罗可能会改变这种计算方法。

    原文链接:https://Gary Marcus . substack . com/p/what-does-meta-ais-diplomacy-winning

    标签:, ,

    相关推荐相关推荐

    焦点精选!影石 X4 体验:拿在手上的全景 8K,最全面的全景运动相机

    焦点精选!影石 X4 体验:拿在手上的全景 8K,最全面的全景运动相机

    大家好,今天小编来为大家解答【影石 X4 体验:拿在手上的全景 8K,最全面的全景运动相机】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 4 2024-05-05
    快讯!比亚迪元PLUS累计销量突破68万辆

    快讯!比亚迪元PLUS累计销量突破68万辆

    大家好,今天小编来为大家解答【比亚迪元PLUS累计销量突破68万辆】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 3 2024-05-05
    环球热文:上汽集团4月销售新能源汽车约7.5万辆,2024年累销同比增超35%

    环球热文:上汽集团4月销售新能源汽车约7.5万辆,2024年累销同比增超35%

    大家好,今天小编来为大家解答【上汽集团4月销售新能源汽车约7.5万辆,2024年累销同比增超35%】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 6 2024-05-05
    当前报道:德系日系韩系汽车厂商纷纷低头:想生存唯有购买中国技术

    当前报道:德系日系韩系汽车厂商纷纷低头:想生存唯有购买中国技术

    大家好,今天小编来为大家解答【德系日系韩系汽车厂商纷纷低头:想生存唯有购买中国技术】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 4 2024-05-05
    热点播报:特斯拉解雇超级充电团队引发混乱,供应商收到措辞奇怪的邮件

    热点播报:特斯拉解雇超级充电团队引发混乱,供应商收到措辞奇怪的邮件

    大家好,今天小编来为大家解答【特斯拉解雇超级充电团队引发混乱,供应商收到措辞奇怪的邮件】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 6 2024-05-05
    全球时讯:特斯拉扩展电动卡车试点项目,已向沃尔玛交付Semi卡车

    全球时讯:特斯拉扩展电动卡车试点项目,已向沃尔玛交付Semi卡车

    大家好,今天小编来为大家解答【特斯拉扩展电动卡车试点项目,已向沃尔玛交付Semi卡车】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 6 2024-05-05
    观热点:消息称苹果屏下Face ID再次推迟,iPhone 18 Pro才会用上

    观热点:消息称苹果屏下Face ID再次推迟,iPhone 18 Pro才会用上

    大家好,今天小编来为大家解答【消息称苹果屏下Face ID再次推迟,iPhone 18 Pro才会用上】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 5 2024-05-05
    今日看点 |美国交通安全局关闭对特斯拉倒车影像画面不显示问题的调查

    今日看点 |美国交通安全局关闭对特斯拉倒车影像画面不显示问题的调查

    大家好,今天小编来为大家解答【美国交通安全局关闭对特斯拉倒车影像画面不显示问题的调查】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 5 2024-05-05
    天天热讯:微软详解MSN天气全新AI模型:一周预报准确度提升17%、可预测30日天象

    天天热讯:微软详解MSN天气全新AI模型:一周预报准确度提升17%、可预测30日天象

    大家好,今天小编来为大家解答【微软详解MSN天气全新AI模型:一周预报准确度提升17%、可预测30日天象】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 6 2024-05-05
    [看点]蔚来李斌称希望中国品牌新车早日在美销售,赴美与黄仁勋探讨AI

    [看点]蔚来李斌称希望中国品牌新车早日在美销售,赴美与黄仁勋探讨AI

    大家好,今天小编来为大家解答【蔚来李斌称希望中国品牌新车早日在美销售,赴美与黄仁勋探讨AI】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 6 2024-05-05
    每日热门:大众“走丰田的路”,加码混动车

    每日热门:大众“走丰田的路”,加码混动车

    大家好,今天小编来为大家解答【大众“走丰田的路”,加码混动车】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 3 2024-05-05
    当前报道:雷军在车展上带来流量爆炸,李想决定回归理性和保守

    当前报道:雷军在车展上带来流量爆炸,李想决定回归理性和保守

    大家好,今天小编来为大家解答【雷军在车展上带来流量爆炸,李想决定回归理性和保守】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 3 2024-05-05
    热点头条:曝iPhone 16全系电池壳将换成不锈钢,可提升电池寿命

    热点头条:曝iPhone 16全系电池壳将换成不锈钢,可提升电池寿命

    大家好,今天小编来为大家解答【曝iPhone 16全系电池壳将换成不锈钢,可提升电池寿命】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 3 2024-05-05
    环球观速讯|苹果 5 月发布会超全爆料:首款AI 硬件,小尺寸或缺货,iPad 配件大更新

    环球观速讯|苹果 5 月发布会超全爆料:首款AI 硬件,小尺寸或缺货,iPad 配件大更新

    大家好,今天小编来为大家解答【苹果 5 月发布会超全爆料:首款AI 硬件,小尺寸或缺货,iPad 配件大更新】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 4 2024-05-05
    焦点速递|全球首发天玑9300+,vivo X100S正式公布:直边直屏影像旗舰

    焦点速递|全球首发天玑9300+,vivo X100S正式公布:直边直屏影像旗舰

    大家好,今天小编来为大家解答【全球首发天玑9300+,vivo X100S正式公布:直边直屏影像旗舰】这个问题,很多人还不知道,现在让我们一起来看看吧!

    互联网 4 2024-05-05