OpenAI 的 GPT-5.5 在网络攻击能力方面与克劳德神话相匹配:AI 安全研究所

简而言之
GPT-5.5可以自主执行复杂的网络攻击,只需10分钟即可完成32步的企业网络模拟并破解12小时的安全难题。
开发人员的进攻性人工智能网络能力正在迅速提高,AISI 警告称,进一步的进步可能很快就会到来。
研究人员发现了一种完全绕过 GPT-5.5 安全护栏的越狱行为,引发了警报。
英国一家政府机构发现 OpenAI 最新的人工智能模型可以自主执行复杂的网络攻击,并且它在短短 10 多分钟内就解决了逆向工程挑战,而人类安全专家则花了大约 12 个小时。
英国科学、创新和技术部下属的研究机构人工智能安全研究所 (AISI) 周四发布的调查结果显示,GPT-5.5 是其评估的攻击性网络能力最强的模型之一,与 Anthropic 所吹嘘的 Claude Mythos 大致相当。
该报告发现,GPT-5.5 是第二个完成 AISI 最严格测试的模型,该测试是一项名为“The Last Ones”的 32 步模拟企业网络攻击,在 10 次尝试中有两次能够自动完成。第一个实现这一里程碑的模型是 Anthropic 的 Claude Mythos Preview,它在 10 次尝试中的 3 次完成了模拟。
与网络安全公司 SpecterOps 合作构建的企业网络模拟需要一个代理将侦察、凭证盗窃、跨多个 Active Directory 林的横向移动、通过 CI/CD 管道的供应链枢轴以及最终泄露受保护的内部数据库结合起来,AISI 估计这些步骤需要人类专家大约 20 小时才能完成。
也许最引人注目的结果涉及极其困难的逆向工程难题。 GPT-5.5 在 10 分钟 22 秒内解决了这一挑战,需要重建自定义虚拟机的指令集、从头开始编写反汇编程序,并通过约束求解恢复加密密码,API 使用成本为 1.73 美元。人类专家使用专业工具大约需要 12 个小时。
在 AISI 的一系列高级网络安全任务中,GPT-5.5 在最困难的“专家”级别上实现了 71.4% 的平均通过率,击败了 Mythos Preview 的 68.6%,并显着超过了 GPT-5.4 的 52.4%。
这些发现对更广泛的人工智能发展轨迹具有重要意义。 AISI 得出的结论是,GPT-5.5 的性能表明网络能力的快速提高可能是总体趋势的一部分,而不是孤立的突破,并警告说,如果进攻性网络技能作为推理、编码和自主任务完成方面更广泛改进的副产品而出现,那么进一步的进步可能会迅速连续出现。
该报告还指出了对该模型安全护栏的严重担忧。研究人员发现了一种通用越狱,该越狱会在所有测试的恶意网络查询中引发有害内容,包括在多轮代理设置中。这次攻击花费了红队专家六个小时的时间才完成。 OpenAI 随后更新了其安全堆栈,但配置问题导致 AISI 无法验证最终版本是否有效。
AISI 警告称,其能力评估是在受控研究环境中进行的,不一定反映普通用户可以访问的内容,并指出公共部署包括额外的保护措施和访问控制。
该报告是在英国网络安全令人担忧的背景下发布的。英国政府于周四发布的年度网络安全漏洞调查发现,43% 的企业在过去 12 个月内遭受过网络漏洞或攻击。
作为回应,政府宣布提供 9000 万英镑的新资金来增强网络弹性,并表示正在推进《网络安全和弹性法案》以保护基本服务。官员们还发布了指导意见,敦促组织为新发现的软件漏洞可能激增做好准备,因为人工智能加快了发现安全漏洞并将其武器化的步伐。