OpenAI 的 GPT-5.5 在网络攻击能力方面与克劳德神话相匹配：AI 安全研究所

简而言之

GPT-5.5可以自主执行复杂的网络攻击，只需10分钟即可完成32步的企业网络模拟并破解12小时的安全难题。

开发人员的进攻性人工智能网络能力正在迅速提高，AISI 警告称，进一步的进步可能很快就会到来。

研究人员发现了一种完全绕过 GPT-5.5 安全护栏的越狱行为，引发了警报。

英国一家政府机构发现 OpenAI 最新的人工智能模型可以自主执行复杂的网络攻击，并且它在短短 10 多分钟内就解决了逆向工程挑战，而人类安全专家则花了大约 12 个小时。

英国科学、创新和技术部下属的研究机构人工智能安全研究所 (AISI) 周四发布的调查结果显示，GPT-5.5 是其评估的攻击性网络能力最强的模型之一，与 Anthropic 所吹嘘的 Claude Mythos 大致相当。

该报告发现，GPT-5.5 是第二个完成 AISI 最严格测试的模型，该测试是一项名为“The Last Ones”的 32 步模拟企业网络攻击，在 10 次尝试中有两次能够自动完成。第一个实现这一里程碑的模型是 Anthropic 的 Claude Mythos Preview，它在 10 次尝试中的 3 次完成了模拟。

与网络安全公司 SpecterOps 合作构建的企业网络模拟需要一个代理将侦察、凭证盗窃、跨多个 Active Directory 林的横向移动、通过 CI/CD 管道的供应链枢轴以及最终泄露受保护的内部数据库结合起来，AISI 估计这些步骤需要人类专家大约 20 小时才能完成。

也许最引人注目的结果涉及极其困难的逆向工程难题。 GPT-5.5 在 10 分钟 22 秒内解决了这一挑战，需要重建自定义虚拟机的指令集、从头开始编写反汇编程序，并通过约束求解恢复加密密码，API 使用成本为 1.73 美元。人类专家使用专业工具大约需要 12 个小时。

在 AISI 的一系列高级网络安全任务中，GPT-5.5 在最困难的“专家”级别上实现了 71.4% 的平均通过率，击败了 Mythos Preview 的 68.6%，并显着超过了 GPT-5.4 的 52.4%。

这些发现对更广泛的人工智能发展轨迹具有重要意义。 AISI 得出的结论是，GPT-5.5 的性能表明网络能力的快速提高可能是总体趋势的一部分，而不是孤立的突破，并警告说，如果进攻性网络技能作为推理、编码和自主任务完成方面更广泛改进的副产品而出现，那么进一步的进步可能会迅速连续出现。

该报告还指出了对该模型安全护栏的严重担忧。研究人员发现了一种通用越狱，该越狱会在所有测试的恶意网络查询中引发有害内容，包括在多轮代理设置中。这次攻击花费了红队专家六个小时的时间才完成。 OpenAI 随后更新了其安全堆栈，但配置问题导致 AISI 无法验证最终版本是否有效。

AISI 警告称，其能力评估是在受控研究环境中进行的，不一定反映普通用户可以访问的内容，并指出公共部署包括额外的保护措施和访问控制。

该报告是在英国网络安全令人担忧的背景下发布的。英国政府于周四发布的年度网络安全漏洞调查发现，43% 的企业在过去 12 个月内遭受过网络漏洞或攻击。

作为回应，政府宣布提供 9000 万英镑的新资金来增强网络弹性，并表示正在推进《网络安全和弹性法案》以保护基本服务。官员们还发布了指导意见，敦促组织为新发现的软件漏洞可能激增做好准备，因为人工智能加快了发现安全漏洞并将其武器化的步伐。