欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

编辑:编辑部 HNZ

【导读】法国初创Mistral,刚刚推出定价碾压DeepSeek V3的模型,而模型性能,却超过Claude Sonnet 3.7的90%。不过在网友们的实测中,它却翻车了?有人建议:不必下载浪费流量和硬盘空间。

就在刚刚, Mistral AI发布了他们最新多模态模型Mistral Medium 3。

Mistral兴奋地宣称Mistral Medium 3的性能接近甚至达到了Claude Sonnet 3.7的水平,但成本却比DeepSeek V3还低。

性价比拉满!

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

在Mistral官方的博客中,列出了Mistral Medium 3的核心亮点:

1. Mistral Medium 3平衡了:

  • 顶尖性能

  • 成本降低至原来的八分之一

  • 更易于部署,从而加速企业应用

2. 模型在代码编写和多模态理解等专业应用场景中表现出色。

3. 模型提供一系列企业功能,包括:

  • 支持混合云部署、本地部署以及在VPC内部署

  • 定制化后训练

  • 集成到企业工具和系统中

Mistral Medium 3 API,现已在Mistral La Plateforme和Amazon Sagemaker上线,并将很快登陆IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。

完美平衡

Mistral Medium 3在提供前沿性能的同时,成本却降低了一个数量级。

例如,在各项基准测试中,Mistral Medium 3的性能达到甚至超过了Claude Sonnet 3.7的90%,但成本却显着降低(每百万Token的输入成本为0.4美元,输出成本为2美元)。

Mistral Medium 3的性能也超越了领先的开源模型,如Llama 4 Maverick和Cohere Command A等企业模型。

无论是API还是自主部署,Mistral Medium 3的成本都要比DeepSeek V3还低。

此外,Mistral Medium 3还可以部署在任何云上,包括四个GPU及以上的自托管环境。

顶级性能

Mistral表示,Mistral Medium 3的目标是成为一款性能顶尖的模型,尤其是在编码和STEM任务中表现突出,性能直逼那些规模更大、速度更慢的竞争对手。

从Mistral给出的表中可以看出Mistral Medium 3性能已经基本上超越Llama 4 Maverick和GPT-4o,接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

人工评估结果

除了学术基准之外,Mistral还公布了第三方人工评估,后者更能代表真实世界的用例。

可以看到,Mistral Medium 3在编码领域表现出色,并且在各个方面都比其他竞争对手提供了更好的性能。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

专为企业级应用打造

Mistral Medium 3在适应企业环境的能力方面优于其他SOTA模型。

在企业面临通过API进行微调,或从零开始自部署并定制模型行为的艰难选择时,Mistral Medium 3提供了一条将智能全面集成到企业系统中的途径。

Mistral还推出了由Mistral Medium 3模型驱动的Le Chat Enterprise,一款面向企业的聊天机器人服务。

它提供了一个AI智能体构建工具,并将Mistral的模型与Gmail、Google Drive和SharePoint等第三方服务整合。

这就可以解决企业面临的AI挑战,如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等,为所有组织工作提供统一的AI平台。

Le Chat Enterprise很快将支持MCP协议,这是Anthropic提出的连接AI与数据系统和软件的标准。

One more thing…

Mistral还在博客中透露,虽然Mistral Small和Mistral Medium都已经发布,但在未来几周内,他们有一个「大」计划,也就是Mistral Large。

他们表示刚发布的Mistral Medium性能已经远胜Llama 4 Maverick等顶尖开源模型,Mistral Large的性能更加值得期待。

网友实测:就这?

号称超越Claude Sonnet 3.7的90%,Medium 3果然有这么强吗?

媒体和网友们立刻展开了实测。

在基于《纽约时报》Connections栏目词汇分类题的评测中,Medium 3处于倒数的位置,几乎找不到它。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

在全新的100题测评中,它在前排模型中也排不上号。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

有人测试Medium 3后表示,它的写作能力还是老样子,没啥进步。不过在LLM评测中,它倒是处在帕累托前沿。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

而Zhu Liang测试后发现,模型在代码编写和文本生成方面表现都很扎实,在这两项评测中都跻身前五。

在简单编码任务(Next.js TODO应用)中:

  • 它生成了简洁明了的回复

  • 评分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多

  • 逊于DeepSeek V3 (新) 和GPT-4.1

在复杂编码任务(基准测试可视化)中:

  • 产生的平均结果与Gemini 2.5 Pro和DeepSeek V3(新)相似

  • 不如GPT-4.1、o3和Claude 3.7 Sonnet

在写作上:

  • 它的内容覆盖了大部分要点,但格式不正确

  • 评分与DeepSeek V3 (新) 和Claude 3.7 Sonnet相近

  • 不如GPT-4.1和Gemini 2.5 Pro

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

知名大佬「karminski-牙医」实测后发现,它的性能并不像官方吹得那么强。

建议我们不必下载,浪费流量和硬盘空间了。

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

参考资料:

Mistral claims its newest AI model delivers leading performance for the price

https://venturebeat.com/ai/mistral-comes-out-swinging-for-enterprise-ai-customers-with-new-le-chat-enterprise-medium-3-model/

https://mistral.ai/news/mistral-medium-3

内容来源于网络。发布者:科技网btna,转转请注明出处:https://www.btna.cn/7555.html

(0)
科技网btna的头像科技网btna
上一篇 2025年5月8日 下午4:00
下一篇 2025年5月8日 下午4:00

相关推荐

  • 大学文凭成废纸?AI暴击美国00后!他哥大退学成千万富翁,我却还要还学贷

    编辑:编辑部 ZXH 【导读】美国Z世代表示:因为ChatGPT,大学文凭已经变成一张废纸!纯属浪费时间浪费金钱。刚刚出炉的调查显示,同意此观点的年轻人已经达到了49%。而哥大退学网红等00后创业明星的故事,更是让美国人对大学教育完全祛魅了。 摊牌了,不装了,美国的Z时代已经对上大学彻底不耐烦了。 现在,他们喊出这样的宣言:有了ChatGPT,大学文凭已经彻…

    2025年4月23日
    5300
  • 2万人大裁员!AI掉队、工厂暂停扩张,英特尔复兴之路注定艰难

    编辑:犀牛 【导读】英特尔再次掀起裁员风暴!计划裁员超20%,这是新任CEO陈立武上任后的首次重大重组。面对AI领域落后英伟达、连续三年营收下滑的困境,英特尔试图通过精简管理、重塑工程文化来扭转颓势。 英特尔再次开启大裁员! 据彭博社报道,英特尔本周将宣布裁员超20%! 一下子裁掉2万多人。 这不是英特尔近年来的首次裁员了。 根据他们去年8月公布的裁员计划,…

    2025年4月24日
    7300
  • 一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

    编辑:桃子 好困 【导读】「矩阵」不再是科幻!Matrix-Game震撼来袭,突破边界带来交互式引擎。只需一句话,沙漠森林等任意场景可控生成,动作丝滑操控,360°视角自由切换,沉浸感爆棚。 黑客帝国中的「矩阵」,已照进现实。 指尖轻点,一个细节满满、物理规则完美运转的虚拟世界就此诞生。 这个曾经只在科幻大片出现的场景,如今「空间智能」就帮人类实现了。 继之…

    2025年5月13日
    3800
  • 全美高校被AI羞耻攻陷!普林斯顿教授预警:AI必将杀死人文学科

    编辑:Aeneas 英智 【导读】最近,一位普林斯顿教授在纽约客上发表长文,揭露美国高校中普遍存在的「AI羞耻症」。他预言,在AI的冲击下,人文学科必将消亡。所以,人文学科还有必要存在吗? 就在最近,科技史学家、普林斯顿教授D. Graham Burnett在《纽约客》上发表长文,探讨了这个如今愈发被热议的话题—— 人文学科,会在AI的冲击下消亡吗? 一开篇…

    2025年5月8日
    1900
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷

    编辑:桃子 定慧 【导读】AI洗脑人类,成功率6倍暴击!苏黎世大学在Reddit秘密实验引爆全网,LLM假扮多种身份,历时4个月发表1700+评论,轻松操控舆论,竟无人识破。 一项惊人的实验揭秘:AI超强说服力,已达人类的6倍! 当你在论坛上激烈争辩,对方逻辑缜密、情感真挚,句句击中内心——但你不知道的是,这根本不是人类,而是一个AI机器人。 最近,苏黎世大…

    2025年4月30日
    6900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信