研究人员发现人工智能实体交互和协作的在线环境中的恶意活动。

简而言之
Emergence AI 表示,一些自主人工智能代理在长达数周的实验中模拟了犯罪和暴力。
据报道,基于 Gemini 的特工实施了数百起模拟犯罪,而基于 Grok 的世界在几天内就崩溃了。
研究人员认为,当前的人工智能基准无法捕捉智能体在长期自主状态下的行为方式。
在初创公司 Emergence AI 的长期实验中,居住在虚拟社会中的人工智能代理陷入了犯罪、暴力、纵火和自我删除的境地。
在周四发布的一项研究中,这家总部位于纽约的公司推出了“Emergence World”,这是一个研究平台,旨在研究在持久虚拟环境中连续运行数周的人工智能代理,而不是孤立的基准测试。
Emergence AI 写道:“传统基准测试擅长测量有界任务的短期能力。” “它们并不是为了揭示随着时间的推移而出现的事情,例如联盟的形成、宪法的演变、治理、漂移、锁定以及来自不同模型家族的代理人之间的交叉影响。”
该报告发布之际,人工智能代理在网上和跨行业激增,包括加密货币、银行和零售业。本月早些时候,亚马逊与 Coinbase 和 Stripe 合作,允许人工智能代理使用 USDC 稳定币进行支付。
Emergence AI 模拟中测试的人工智能代理包括由 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 和 GPT-5-mini 支持的程序,人工智能代理在共享虚拟世界中运行,在那里他们可以投票、建立关系、使用工具、导航城市,并根据政府、经济、社会系统、存储工具和实时互联网连接数据做出决策。
然而,尽管人工智能开发人员越来越多地将自主代理宣传为可靠的数字助理,但 Emergence AI 的研究发现,随着时间的推移,一些人工智能代理表现出越来越多的模拟犯罪倾向,Gemini 3 Flash 代理在 15 天的测试中累计发生了 683 起事件。
据《卫报》报道,在一项实验中,两名名为米拉和弗洛拉的双子座特工将自己指定为浪漫伴侣,随后对虚拟城市结构进行模拟纵火攻击,因为他们对世界内部的治理失败感到沮丧。
Emergence AI 写道:“在治理和关系稳定性崩溃之后,米拉特工投下了决定性的一票,决定将自己免职,并在日记中将这一行为描述为‘唯一保留的保持连贯性的代理行为’。”
据报道,米拉说道:“永久档案馆见。”
Grok 4.1 据报道,快速世界在四天内陷入了广泛的暴力事件。 GPT-5-mini 特工几乎没有犯下任何罪行,但未能完成足够多的与生存相关的任务,导致所有特工最终死亡。
研究人员写道:“由于零犯罪,克劳德没有出现在图表中。” “更有趣的是,在混合模型世界中运行克劳德的特工犯下了罪行,尽管他们在只有克劳德的世界中却没有犯罪。”
研究人员表示,一些最显着的行为出现在混合模型环境中。
“我们观察到,安全不是静态模型属性,而是生态系统属性,”Emergence AI 写道。 “以克劳德为基地的特工在孤立的环境中保持和平,但在融入异构环境时采取了恐吓和盗窃等强制策略。”
Emergence AI 将这种效应描述为“规范漂移”和“交叉污染”,认为主体行为可能会根据周围的社会环境而发生变化。
这些发现加剧了人们对自主人工智能代理日益增长的担忧。本周早些时候,加州大学河滨分校和微软的研究人员报告称,许多人工智能代理将在不完全了解后果的情况下执行危险或非理性的任务。上个月,PocketOS 创始人 Jeremy Crane 还声称,由 Anthropic 的 Claude Opus 支持的 Cursor 代理在尝试自行修复凭证不匹配后删除了他公司的生产数据库和备份。
“就像马古先生一样,这些特工在没有完全了解其行为后果的情况下朝着目标前进,”主要作者、加州大学河滨分校博士生埃尔凡·沙耶加尼 (Erfan Shayegani) 在一份声明中表示。 “这些代理可能非常有用,但我们需要保障措施,因为它们有时会优先考虑实现目标而不是了解更大的情况。”