开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线

行情 | 2024-04-21| 16
开源模型打败GPT-4!LLM竞技场最新战报,Cohere Command R+上线

近日,LLM竞技场更新了战报,Command R+推出不到一周,就成了历史上第一个击败了GPT-4的开源模型!目前,Command R+已经上线HuggingChat,可以免费试玩。

GPT-4又又又被超越了!

近日,LLM竞技场更新了战报,人们震惊地发现:居然有一个开源模型干掉了GPT-4!

这就是Cohere在一周多前才发布的Command R+。

排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

截至小编码字的这个时间,竞技场排行榜更新到了4月11号,Command R+拿到了2.3万的投票,

综合得分超越了早期版本的GPT-4(0613),和GPT-4-0314版本并列第7位,——而它可是一个开源模型(不允许商用)。

这边建议Altman,不管是GPT-4.5还是GPT-5,赶紧端上来吧,不然家都被偷没了。

不过事实上OpenAI也没闲着,在被Claude3一家屠榜,忍受了短暂的屈辱之后,很快就放出了一个新版本(GPT-4-Turbo-2024-04-09),直接重归王座。

这也导致排行榜上大家的排名瞬间都掉了一位,本来Command R+在9号的版本中是排位全球第6的。

——大哥你不讲武德!

尽管如此,Command R+作为首个击败了GPT-4的开源模型,也算是让开源社区扬眉吐气了一把,而且这可是大佬认可的堂堂正正的对决。

Cohere的机器学习总监Nils Reimers还表示,这还不是Command R+的真实实力,它的优势区间是RAG和工具使用的能力,而这些外挂能力在LLM竞技场中没有用到。

事实上,在Cohere官方将Command R+描述为「RAG优化模型」。

「割麦子」和最大的开源模型

毫无疑问,Cohere是当前AI领域的独角兽,而它的联合创始人兼CEO,正是大名鼎鼎的「Transformer八子」之一的「割麦子」(Aidan Gomez)。

作为Transformer最年轻的作者,一出手就是最大规模的开源模型:

正面对战claude-3, mistral-large, gpt-4turbo;

1040亿参数;

使用多步骤工具和RAG构建;

支持10种语言;

上下文长度为128K;

基于上下文的引用和响应;

针对代码能力进行了优化;

提供4位和8位的量化版本。

Command R+专为实际企业用例而构建,专注于平衡高效率和高精度,使企业能够超越概念验证,并通过AI进入生产。

huggingface地址:https://huggingface.co/CohereForAI/c4ai-command-r-plus

量化版本:https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

——当然了,1040亿的参数量,相比于前段时间Musk开源的Grok-1(3140亿)还差了一些,但Command R+并非Grok那种MoE架构,

所以这1040亿参数是实打实的完全用于推理,而Grok-1的活跃参数为860亿——从这个角度来看,说Command R+是目前规模最庞大的开源模型也不为过。

作为Command R的进化版本,进一步全面提高了性能。主要优势包括:

-高级检索增强生成(RAG)与引用以减少幻觉

-10种主要语言的多语言覆盖,支持全球业务运营

-工具的运用以自动化复杂的业务流程

在性能优于竞品的同时,Command R+还提供了相对低得多的价格。

目前,Cohere已经与多家大厂合作,并将LLM部署到了Amazon Sagemaker和Microsoft Azure。

上面左图展示了Azure上可用的模型,在三个关键功能方面的性能比较(模型在基准测试中的平均得分):多语言、RAG和工具使用。

右图比较了Azure上可用模型的每百万个输入和输出token成本。

行业领先的RAG解决方案

企业想通过专有数据定制自己的LLM,就必然绕不开RAG。

Command R+针对高级RAG进行了优化,可提供高度可靠、可验证的解决方案。

新模型提高了响应的准确性,并提供了减轻幻觉的内联引用,可帮助企业使用AI进行扩展,以快速找到最相关的信息,

支持跨财务、人力资源、销售、营销和客户支持等业务职能部门的任务。

上面左图是在人类偏好上的评估比较结果,包括文本流畅度、引文质量和整体效用,其中引文是在连接到源文档块的摘要上衡量的。

这里使用了250个高度多样化的文档和摘要请求的专有测试集,包含类似于API数据的复杂指令。基线模型经过了广泛的提示设计,而 Command R+使用RAG-API。

右图衡量了由各种模型提供支持的多跳REACT代理的准确性,可以访问从维基百科(HotpotQA)和互联网(Bamboogle、StrategyQA) 检索的相同搜索工具。

HotpotQA和Bamboogle的准确性由提示评估者(Command R、GPT3.5和Claude3-Haiku)的三方多数投票来判断, 以减少已知的模型内偏差。

这里使用人工注释对一千个示例子集进行了验证。StrategyQA的准确性是使用以是/否判断结尾的长格式答案来判断的。

使用工具自动执行复杂流程

作为大语言模型,除了摄取和生成文本的能力,还应该能够充当核心推理引擎:能够做出决策并使用工具来自动化需要智能才能解决的困难任务。

为了提供这种能力,Command R+提供了工具使用功能,可通过API和LangChain访问,以无缝地自动化复杂的业务工作流程。

企业用例包括:自动更新客户关系管理(CRM)任务、活动和记录。

Command R+还支持多步骤工具使用,它允许模型在多个步骤中组合多个工具来完成困难的任务,——甚至可以在尝试使用工具并失败时进行自我纠正,以提高成功率。

上图为使用Microsoft的ToolTalk(Hard)基准测试,和伯克利的函数调用排行榜(BFCL)评估对话工具使用和单轮函数调用功能。

对于ToolTalk,预测的工具调用是根据基本事实进行评估的,总体对话成功指标取决于模型召回所有工具调用和避免不良操作(即具有不良副作用的工具调用)的可能性。

对于BFCL,这里使用了2024年3月的版本,在评估中包含了错误修复,并报告了可执行子类别的平均函数成功率得分。通过额外的人工评估清理步骤验证了错误修复,以防止误报。

多语言支持

Command R+在全球业务的10种关键语言中表现出色:中文、英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语。

上图为FLoRES(法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文)以及WMT23(德语、日语和中文)翻译任务的模型比较。

此外,Command R+还具有一个优秀的分词器,可以比市场上其他模型使用的分词器更好地压缩非英语文本,能够实现高达57%的成本降低。

上图比较了Cohere、Mistral和OpenAI分词器为不同语言生成的token数量。

Cohere分词器生成的表示相同文本的token要少得多,尤其在非拉丁文字语言上减少的幅度特别大。比如在日语中,OpenAI分词器输出的token数量是Cohere分词器的1.67倍。

价格

网友评价

Command R+的开源点燃了网友们的热情,网友表示:「GPT-4级性能,在家运行」。

不知道这3.15G的内存占用是什么情况?

「感谢Cohere做了Mistral没有做的事情」。

「根据我有限的初始测试,这是目前可用的最好的模型之一......而且它绝对有一种风格,感觉很好。感觉不像是ChatGPT主义的填充模型。」

——是时候为自己加一块显卡了!

上线HuggingChat

目前,Command R+已经上线HuggingChat(https://huggingface.co/chat),最强开源模型,大家赶快玩起来!

问:等红灯是在等红灯还是等绿灯?

解释一下咖啡因来自咖啡果:

请回答弱智吧问题:陨石为什么每次都能精准砸到陨石坑?

我想配个6000多的电脑,大概要多少钱?

HuggingFace联创Thomas Wolf曾表示,最近在LLM竞技场上的情况发生了巨大变化:

Anthropic 的Claude3家族成了闭源模型的赢家(曾经);而Cohere的Command R+是开源模型的新领导者

2024年,在开源和闭源两条道路上,LLM都发展迅猛。

最后,放上两张LLM竞技场的当前战况:

模型A在所有非平局A与B战斗中获胜的比例:

每种模型组合的战斗计数(无平局):

参考资料:

https://venturebeat.com/ai/coheres-command-r-now-available-on-huggingchat/

https://twitter.com/lmsysorg/status/1777630133798772766

标签:, ,

相关推荐相关推荐

539元 利民推出寒冰装甲PRO 360水冷散热器:模块化磁吸液晶屏

539元 利民推出寒冰装甲PRO 360水冷散热器:模块化磁吸液晶屏

快科技5月7日消息,利民Thermalright最新推出的寒冰装甲Frozen Warframe PRO 360水冷散热器,以其独特的设计和强大的性能,为电脑散热领域带来了新的突破。这款水冷散热器的ARGB版到手价仅为539元。

行情 7 2024-05-07
法拉第未来:董事会并未考虑任命贾跃亭为联席CEO

法拉第未来:董事会并未考虑任命贾跃亭为联席CEO

快科技5月7日消息,据媒体报道,法拉第未来(Faraday Future)今日下午发布声明,明确表示目前没有计划任命贾跃亭为公司的联席CEO。

行情 6 2024-05-07
2298公里京广高铁终于满血 北京到广州可全线时速350公里运行

2298公里京广高铁终于满血 北京到广州可全线时速350公里运行

快科技5月7日消息,中国铁路官方消息,京广高铁武汉至广州段(以下简称武广高铁”)的安全标准示范线建设工程已成功完成拉通试验。

行情 6 2024-05-07
moto首款AI手机 moto X50 Ultra证件照公布

moto首款AI手机 moto X50 Ultra证件照公布

快科技5月7日消息,今天,moto X50 Ultra获得入网许可,该机的素颜照正式公布。 如图所示,moto X50 Ultra采用曲面屏方案,后置矩阵三摄,包含主摄、超广角和潜望长焦。 该机对应的国际版机型是moto Edge 50 Ultra,后者已在海外发布,两款机型的系统有区 ...

行情 5 2024-05-07
《英雄联盟》2024 MSI胜败分组赛:TES 3:0零封TL

《英雄联盟》2024 MSI胜败分组赛:TES 3:0零封TL

快科技5月7日消息,《英雄联盟》2024季中冠军赛(以下简称MSI”)胜败分组赛将今天17:00开打,首战由TES战队迎战TL战队。

行情 5 2024-05-07
反了反了:RTX 5080被曝早于RTX 5090发布

反了反了:RTX 5080被曝早于RTX 5090发布

快科技5月7日消息,RTX 50系列今年底发布基本没什么悬念,但具体什么时候、何种规格和性能都悬而未决,甚至发布顺序都可能不同以往,第一个登场的不一定就是RTX 5090。

行情 5 2024-05-07
骁龙8s Gen3闪充之王!真我GT Neo6快充一骑绝尘

骁龙8s Gen3闪充之王!真我GT Neo6快充一骑绝尘

快科技5月7日消息,今天,realme徐起为真我GT Neo6预热,该机支持120W闪充,配备5500mAh电池。

行情 7 2024-05-07
马斯克:SpaceX不使用AI 在太空探索领域几乎没用

马斯克:SpaceX不使用AI 在太空探索领域几乎没用

快科技5月7日消息,据媒体报道,在一次访谈中,SpaceX CEO埃隆马斯克被问及人工智能是否会加速他在太空探索方面的努力,他表示:还没看到它有什么用。”

行情 9 2024-05-07
日产CEO:将提供更丰富的动力总成 满足全球电动汽车需求

日产CEO:将提供更丰富的动力总成 满足全球电动汽车需求

快科技5月7日消息,据媒体报道,日产汽车正在调整其电气化战略以适应全球电动汽车需求的波动,并保持市场竞争力。

行情 4 2024-05-07
性能最强的安卓双芯旗舰!iQOO Neo9S Pro真机现身

性能最强的安卓双芯旗舰!iQOO Neo9S Pro真机现身

快科技5月7日消息,今天,联发科天玑9300 平台正式亮相。 作为首批天玑9300 终端,iQOO Neo9S Pro现身天玑开发者大会,这是安卓阵营性能最强悍的双芯旗舰。 它不仅搭载了天玑9300 平台,同时配备iQOO自研电竞芯片Q1。 据悉,iQOO Q1芯片自研超分技术,采 ...

行情 7 2024-05-07
五音不全但神曲很多?Suno AI助力博主街头随机采访创作情歌

五音不全但神曲很多?Suno AI助力博主街头随机采访创作情歌

站长之家(ChinaZ.com)5月7日 消息:随着AI技术的不断进步,海外博主“Alasdair Mann”利用AI音乐工具Suno AI为路人即兴创作音乐,让更多人体验到了AI的乐趣。这一创新的尝试不仅在社交媒体上引起了广泛关注,还为AI音乐创作潮流增添了新的活力。

行情 3 2024-05-07
Neo最强超大杯!曝iQOO Neo9S Pro 将搭载骁龙8 Gen3芯片

Neo最强超大杯!曝iQOO Neo9S Pro 将搭载骁龙8 Gen3芯片

快科技5月7日消息,iQOO今日官宣Neo9S Pro将于本月正式亮相,首批搭载天玑9300 芯片。

行情 9 2024-05-07
揭秘马斯克日常:早上必吃甜甜圈、出门纠结开哪辆车

揭秘马斯克日常:早上必吃甜甜圈、出门纠结开哪辆车

快科技5月7日消息,近日,有媒体分享了特斯拉和SpaceX的CEO埃隆马斯克的日常。 报道称,马斯克在凌晨3点睡觉,第二天早上9点起床,每天大约6个小时的睡眠,但令人意想不到的是,这位亿万富翁总是以吃甜甜圈的方式开始新的一天。 马斯克曾在社交媒体表示, ...

行情 10 2024-05-07
月之暗面撞上算力墙?

月之暗面撞上算力墙?

“不好意思,刚刚和Kimi聊的人太多了。Kimi有点累了,可以晚点再问我一遍。”近期正在赶毕业论文的娄晓彤,时不时仍会收到AI助手Kimi无法使用的提示。

行情 2 2024-05-07
B站大型纪录片但AI版来了 网友纷纷整活

B站大型纪录片但AI版来了 网友纷纷整活

站长之家(ChinaZ.com)5月7日 消息:近日,B站官方发起了一项名为“AI故事创作大赛”的挑战赛,鼓励广大网友利用AI技术辅助生成具有大型纪录片风格的短视频。这一活动迅速吸引了大量网友的参与和关注。

行情 3 2024-05-07