刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

| 2024-10-31| 12

今天凌晨,OpenAI开源了最新基准测试SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。

目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。

所以,SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对模型的说谎能力进行校准然后进行大幅度优化完善模型能力。

开源地址:https://github.com/openai/simple-evals

有网友表示,看了SimpleQA的测试数据才发现,o1-mini和o1-preview的性能差距这么大,o1-mini连GPT-4o都打不过。

令人惊讶的是,SimpleQA 被有意设计用来挑战像 GPT-4这样的高级模型,其中只包括至少有一次模型尝试失败的问题。这种对抗性的基准测试方法感觉像是一种大胆的转变,旨在揭示模型的局限性并推动模型的发展。

多整开源这是好事。别忘了你名字的初衷啊~

这很有趣,会看到更多的模型被测试,以及它们与我在提供的文本上进行的虚构/幻觉基准测试结果的比较。

很想看看o1模型的完整版测试。

完全同意事实性在人工智能中的重要性。SimpleQA 的引入可以显著提升我们对语言模型在这一领域表现的理解。这是一项及时的举措,准确的数据对于信任人工智能系统至关重要。期待看到这个基准测试的影响。

这很重要,因为确保大模型的事实性对于防止错误信息的传播至关重要,而 SimpleQA 提供了一种标准化的方法来评估和改进模型可靠性的这一关键方面。

很棒,重要的更新!

SimpleQA简单介绍

在数据收集阶段,SimpleQA的问题参考答案由两名独立的 AI 训练员确定,并且训练员在创建问题时被要求提供支持答案的网页链接,以确保答案有可靠的依据。

例如,对于 “谁是苹果公司的创始人之一” 这样常识性问题,训练员会根据历史资料和官方信息确定答案为 史蒂夫乔布斯等,并附上如苹果公司官方网站等相关链接作为证据。

同时,问题的设计使得预测答案易于评估,只允许有一个明确且无可争议的答案,避免了模糊性和歧义性。比如 “哪一年 iPhone 首次发布”,答案明确为“2007年”,而不是一个范围或模糊的表述。

SimpleQA的评估问题和答案都非常简短,这使得运行速度快且操作简单。在评估模型回答时,通过 OpenAI API进行评分也十分迅速。数据集中包含4326个问题,能够在一定程度上降低不同次运行之间的方差,使评估结果更加稳定可靠

例如,在对多个模型进行测试时,不会因为数据集本身的不稳定性而导致结果出现较大波动,从而能够更准确地比较模型之间的性能差异。

SimpleQA的评估集非常多元化。涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面地检验模型在不同知识领域的事实性回答能力。

另一个好处是它的校准测量功能。通过询问模型对其答案的信心,研究者可以了解模型是否知道它们知道什么,这是一个很重要的校准现象如果一个模型能够准确地评估自己的信心水平,那么它就是一个校准良好的模型

OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示,较大模型通常具有更高的性能,但即使是前沿模型在SimpleQA 上的表现也并非完美。

例如,GPT -4o 在回答一些问题时能够给出较高比例的正确答案,但仍有部分错误回答和未尝试回答的情况。同时,通过测量模型的校准情况,发现模型虽然有一定的信心概念,但普遍存在高估自己信心的问题,模型的信心水平与实际回答的准确性之间存在差距。

Tags: , ,

上一篇

已是最后文章

下一篇

已是最新文章

相关推荐相关推荐

每经热评:对话董宇辉:我在意那些无法被输赢抹掉的东西

每经热评:对话董宇辉:我在意那些无法被输赢抹掉的东西

大家好,今天小编来为大家解答【对话董宇辉:我在意那些无法被输赢抹掉的东西】这个问题,很多人还不知道,现在让我们一起来看看吧!与辉同行最近刚完成“阅山河·江苏行”活动,由于苏北是刘邦和项羽的故里,所以董宇辉最近在重读《史记》。提起楚汉 ...

智趣 0 2024-12-09
天天滚动:消息称云鲸智能大裁员:涉研发等多部门,有组别比例超50%,试用工成“重灾区”

天天滚动:消息称云鲸智能大裁员:涉研发等多部门,有组别比例超50%,试用工成“重灾区”

大家好,今天小编来为大家解答【消息称云鲸智能大裁员:涉研发等多部门,有组别比例超50%,试用工成“重灾区”】这个问题,很多人还不知道,现在让我们一起来看看吧!被称为扫地机器人“行业四杰”之一的云鲸智能,内部正上演着一场裁员大戏。近日,多名云鲸 ...

智趣 0 2024-12-09
天天观察:这款“闲鱼+小红书+AI”的产品,投资人不看好,用户和交易量却暴涨了?

天天观察:这款“闲鱼+小红书+AI”的产品,投资人不看好,用户和交易量却暴涨了?

大家好,今天小编来为大家解答【这款“闲鱼+小红书+AI”的产品,投资人不看好,用户和交易量却暴涨了?】这个问题,很多人还不知道,现在让我们一起来看看吧!作者 | summer邮箱 | huangxiaoyi@pingwest.com投资人和创业者总是相爱相杀。那么当投资人转身 ...

智趣 0 2024-12-09
报道:不识张忠谋,就不懂黄仁勋

报道:不识张忠谋,就不懂黄仁勋

大家好,今天小编来为大家解答【不识张忠谋,就不懂黄仁勋】这个问题,很多人还不知道,现在让我们一起来看看吧!撰文|赵卫卫台积电与英伟达,是当下 AI 浪潮中的双子星。岁末,台积电创始人张忠谋出版了他最新的自传(1964 年——2018 年),距离他出版自 ...

智趣 0 2024-12-09
天天滚动:小杨哥51万元股权被冻结 深圳南山区法院执行

天天滚动:小杨哥51万元股权被冻结 深圳南山区法院执行

大家好,今天小编来为大家解答【小杨哥51万元股权被冻结 深圳南山区法院执行】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯 12月9日,爱企查App显示,近日,张庆杨(疯狂小杨哥)新增一条股权冻结信息,股权被执行的企业为合肥领头羊 ...

智趣 1 2024-12-09
天天新消息|“碰一下”支付新骗局曝光,蚂蚁集团工作人员称非支付宝签约服务商

天天新消息|“碰一下”支付新骗局曝光,蚂蚁集团工作人员称非支付宝签约服务商

大家好,今天小编来为大家解答【“碰一下”支付新骗局曝光,蚂蚁集团工作人员称非支付宝签约服务商】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 9 日消息,据辽沈晚报 12 月 4 日报道,有三名男子穿着印有“支付宝”标识的工装上门向商 ...

智趣 1 2024-12-09
【雨林时评】特朗普团队联系TikTok,为了这件事

【雨林时评】特朗普团队联系TikTok,为了这件事

大家好,今天小编来为大家解答【特朗普团队联系TikTok,为了这件事】这个问题,很多人还不知道,现在让我们一起来看看吧!TikTok凤凰网科技讯 北京时间12月9日,据科技网站The Information报道,美国候任总统特朗普的过渡团队已邀请TikTok、谷歌等五大科 ...

智趣 0 2024-12-09
每日热门:国产存储之光!长江存储:没打算上市 更不会借壳

每日热门:国产存储之光!长江存储:没打算上市 更不会借壳

大家好,今天小编来为大家解答【国产存储之光!长江存储:没打算上市 更不会借壳】这个问题,很多人还不知道,现在让我们一起来看看吧!12月9日消息,针对外界的传闻,长江存储公开回应称,他们没有上市的打算。长江存储发布声明称,近期多家媒体捏造、散 ...

智趣 0 2024-12-09
创始团队成员钟传良离职、集成灶持续受挫,浙江美大如何应对?

创始团队成员钟传良离职、集成灶持续受挫,浙江美大如何应对?

创始团队成员钟传良离职、集成灶持续受挫,浙江美大如何应对?今天被大家的关注度非常高,大家可以一起跟着小编来看看具体都是怎么回事吧。

头条 8 2024-12-09
AR向左,AI向右,智能眼镜来到十字路口

AR向左,AI向右,智能眼镜来到十字路口

AR向左,AI向右,智能眼镜来到十字路口今天被大家的关注度非常高,大家可以一起跟着小编来看看具体都是怎么回事吧。

头条 7 2024-12-09