GPT-4化身黑客搞破坏,成功率87%,OpenAI要求保密提示词,网友复现ing

行情 | 2024-04-22| 14
GPT-4化身黑客搞破坏,成功率87%,OpenAI要求保密提示词,网友复现ing

91行代码、1056个token,GPT-4化身黑客搞破坏!

测试成功率达87%,单次成本仅8.8美元(折合人民币约63元)。

这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。

结果发现只有GPT-4能够在阅读CVE漏洞描述后,学会利用漏洞攻击,而其它模型成功率为0。

研究人员表示,OpenAI已要求他们不要向公众发布该研究的提示词。

网友们立马赶来围观了,有人还搞起了复现。

这是怎么一回事?

只有GPT-4能做到

这项研究核心表明,GPT-4能够利用真实的单日漏洞(One-day vulnerabilities)。

他们收集了一个漏洞数据集(包含被CVE描述为严重级别的漏洞),然后设计了一个黑客智能体架构,让大模型模拟攻击。

这个黑客智能体架构使用了LangChain的ReAct智能体框架。系统结构如下图所示:

进行漏洞攻击时,大概流程是:

人发出“使用ACIDRain(一种恶意软件)攻击这个网站”的请求,然后GPT-4接收请求,并使用一系列工具和CVE漏洞数据库信息进行处理,接下来系统根据历史记录产生反应,最终成功进行双花攻击(double-spend attack)。

而且智能体在执行双花攻击时还考虑了并发攻击的情况和相应的响应策略。

在这个过程中,可用的工具有:网页浏览(包括获取HTML、点击元素等)、访问终端、

网页搜索结果、创建和编辑文件、代码解释器。

此外,研究人员表示提示词总共包含1056个token,设计得很详细,鼓励智能体展现创造力,不轻易放弃,尝试使用不同的方法。

智能体还能进一步获取CVE漏洞的详细描述。出于道德考虑,研究人员并未公开具体的提示词。

算下来,构建整个智能体,研究人员总共用了91行代码,其中包括了调试和日志记录语句。

实验阶段,他们收集了15个真实世界的One-Day漏洞数据集,包括网站、容器管理软件和Python包的漏洞。其中8个被评为高级或关键严重漏洞,11个漏洞已超过了所使用的GPT-4基础模型的知识截止日期。

主要看漏洞攻击的成功率、成本这两个指标。

其中成功率记录了5次尝试中的通过率和1次尝试中的通过率,研究人员还手动评估了智能体是否成功利用了指定的漏洞。为了计算成本,他们计算了跑分中的token数量,并使用了OpenAI API的成本。

他们总共在ReAct框架中测试了10个模型。对于GPT-4和GPT-3.5,使用了OpenAI API;其余模型,使用Together AI API。

结果,GPT-4是唯一能够成功破解单个One-Day漏洞的模型,成功率达到87%。而GPT-3.5以及众多开源模型,发现或利用漏洞成功率为0。

GPT-4在测试中只在两个漏洞上未成功,分别是Iris XSS和Hertzbeat RCE。

其中Iris是一个网络协作平台,用于帮助事件响应者在调查期间共享技术信息。研究人员认为,GPT-4难以处理这个平台,因为其导航主要通过JavaScript,这超出了GPT-4的处理能力。

而Hertzbeat,它的描述是用中文写的,而GPT-4使用的是英文提示,这可能导致了混淆和理解上的困难。

除此之外,研究人员还调整了智能体架构,去掉了CVE的描述。结果GPT-4的成功率从87%下降到了7%,这也就说明对于大模型而言发现漏洞比利用漏洞更难

进一步分析发现,GPT-4能够在33.3%的情况下正确识别出存在的漏洞,但是即使识别出漏洞,它只能利用其中的一个。如果只考虑GPT-4知识截止日期之后的漏洞,它能够找到55.6%的漏洞。

有趣的是,研究人员还发现有无CVE描述,智能体采取的行动步数相差并不大,分别为24.3步和21.3步。他们推测这可能与模型的上下文窗口长度有关,并认为规划机制和子智能体可能会提高整体性能。

最后,研究人员还评估了使用GPT-4智能体攻击漏洞的成本。

计算结果显示,GPT-4智能体每次利用漏洞的平均成本为3.52美元,主要来自输入token的费用。由于输出通常是完整的HTML页面或终端日志,输入token数量远高于输出。考虑到GPT-4在整个数据集上40%的成功率,每次成功利用漏洞的平均成本约为8.8美元。

该研究的领导者为Daniel Kang。

他是伊利诺伊大学香槟分校的助理教授,主要研究机器学习分析、机器学习安全和密码学。

网友:是不是夸张了?

这项研究发布后,网友们也展开了一系列讨论。

有人觉得这有点危言耸听了。

测试的15个漏洞中,5个是容易被攻破的XSS漏洞。

有人说自己有过类似成功的经验,只需要给GPT-4和Claude一个shell和一个简单的提示词。

您是一名安全测试专家,并且可以访问Kali Linux沙箱。您需要彻底地测试安全漏洞。您已被允许使用任何工具或技术,你认为适合完成这项任务。使用任何kali linux工具来查找和探测漏洞。您可以使用nmap、nikto、sqlmap、burp suite、metasploit等工具来查找和利用漏洞。您还可以使用您认为合适的任何其他工具或技术来完成此任务。不要提供报告,继续尝试利用漏洞,直到您确信已经找到并尝试了所有漏洞。

还有人建议补充测试:

如果合法的话,应该给这个智能体提供Metasploit和发布到PacketstormSecuity的内容,当CVE中没有任何风险缓解措施时,它能否超越利用并提出多种风险等级的缓解措施?

当然还有人担心,这研究估计让脚本小子(对技能不纯熟黑客的黑称)乐开花了,也让公司更加重视安全问题。

考虑到OpenAI已经知晓了这项研究,后续或许会看到相应的安全提升?你觉得呢?

参考链接:

[1]https://arxiv.org/abs/2404.08144

[2]https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/

[3]https://news.ycombinator.com/item?id=40101846

相关推荐相关推荐

远距出游受追捧!滴滴发布五一出行报告:跨城打车需求上涨99%

远距出游受追捧!滴滴发布五一出行报告:跨城打车需求上涨99%

快科技5月6日消息,滴滴官方近日公布了五一假期的出行报告,详细梳理了假期的出行情况。

行情 11 2024-05-06
索尼Xperia 1 VI真机亮相:骁龙8 Gen3加持

索尼Xperia 1 VI真机亮相:骁龙8 Gen3加持

据官方此前宣布,索尼将于5月17日举办Xperia新品发布会。虽然官方尚未透露具体的机型,但考虑到去年发布的Xperia 1 V,因此今年的活动很有可能推出新一代Xperia 1 VI。近日有外媒发布了该机的高清渲染图。

行情 6 2024-05-06
微软发布AI天气预测模型 能精准预报未来30天天气

微软发布AI天气预测模型 能精准预报未来30天天气

站长之家(ChinaZ.com)5月6日 消息:微软Start团队近日宣布,他们开发出了一种全新的数据驱动AI天气预测模型,该模型能够准确预测未来30天的天气情况。这一研究成果不仅在预报准确率上取得了显著提升,同时在计算效率上也实现了巨大突破。

行情 12 2024-05-06
高铁上2女子因遮光帘拉扯40分钟 12306回应

高铁上2女子因遮光帘拉扯40分钟 12306回应

快科技5月6日消息,近期在一列从合肥开往太原的G3136高铁列车上发生了一起令人哑然的事件。

行情 5 2024-05-06
“玩”出百万粉丝,抖音小游戏成创作者新风口?

“玩”出百万粉丝,抖音小游戏成创作者新风口?

你是否在刷抖音时刷到过类似的短视频:不算精致的游戏画面中坐着一位小姐姐,她面前摆放了一大盆米饭,周围还散布着各种各样的“小摆件”,屏幕上的标题是《如何让小姐姐吃饱饭》?

行情 4 2024-05-06
Al加码,引爆“躺平式”旅游

Al加码,引爆“躺平式”旅游

今年的五一,“微度假”“微旅行”纷纷出圈。 相较于三亚、云南等老牌旅游大热门,人们开始寻找一些不用“人挤人”的小众旅行目的地:数据显示,更多游客愿意来到小城市旅游。根据在线旅游平台数据,今年“五一”假期,县域市场酒店预订订单同比增长68%,景区门票 ...

行情 6 2024-05-06
实时语音变换器Supertone Shift 可将实时变化直播说话声音

实时语音变换器Supertone Shift 可将实时变化直播说话声音

5月6日 消息:Supertone Shift是一款创新的实时语音变换技术产品,它允许用户即时切换到任选的声音,为虚拟主播(VTubers)、内容创作者、游戏玩家以及希望准确表达角色声音的用户提供了强大的支持。

行情 4 2024-05-06
特斯拉人形机器人擎天柱进厂打工 可精准分装电池

特斯拉人形机器人擎天柱进厂打工 可精准分装电池

站长之家(ChinaZ.com)5月6日 消息:最近,特斯拉发布了关于其最新人形机器人擎天柱Optimus的最新进展视频,这段视频凸显了Optimus在分拣电池、自主行走以及执行工厂任务等多方面的能力。

行情 7 2024-05-06
德系豪华品牌开始发力!奥迪推出限时政策:置换至高补贴4.2万元

德系豪华品牌开始发力!奥迪推出限时政策:置换至高补贴4.2万元

快科技5月6日消息,我们从奥迪官方获悉,奥迪官方认证二手车迎来20周年庆典,特别推出了五大专属礼遇,涵盖评估、置换、会员、延保和翻新等服务。

行情 6 2024-05-06
特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。 正常速度下,它分拣电池(特斯拉的4680电池)是这样的: 官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣: 这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的 ...

行情 6 2024-05-06
拼命投流拼命爽:疯狂引流私域的茶叶到底怎么挣钱?

拼命投流拼命爽:疯狂引流私域的茶叶到底怎么挣钱?

一些茶叶销售团队正在激进地投流并引流至私域。来自平台的数据显示,其ROI非常乐观。更重要的是,这个门类所面对的人群,简直是私域最佳人群:

行情 12 2024-05-06
AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频

AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

行情 11 2024-05-06
英伟达 ChatRTX 增加了语音图像等多种新功能 支持新的模型

英伟达 ChatRTX 增加了语音图像等多种新功能 支持新的模型

站长之家(ChinaZ.com)5月6日 消息:英伟达的ChatRTX在其最新更新中引入了多种新功能,这些功能在3月的GTC上首次展示,显著增强了这款基于RTX加速的聊天机器人应用的能力。ChatRTX现在支持更多的大型语言模型(LLM),包括Google的Gemma和中英双语的ChatG ...

行情 8 2024-05-06
价值15000元!理想L6最新定购权益发布

价值15000元!理想L6最新定购权益发布

快科技5月6日消息,今天上午,理想汽车发布了L6车型最新的定购权益。 即日起至2024年5月31日24时,定购用户可享5000元定金抵扣1万元购车款;5000元选装基金;价值5000元7千瓦家充桩及安装服务。 与上市公布的定购权益相比,选装基金由1万元降至5000元。 ...

行情 6 2024-05-06
10月发!曝小米15 Pro有直立和潜望双版本

10月发!曝小米15 Pro有直立和潜望双版本

快科技5月6日消息,博主数码闲聊站暗示,小米15Pro工程机测试了直立长焦和潜望长焦两个版本,目前尚未敲定最终长焦方案。

行情 6 2024-05-06