Исследователи обнаруживают вредоносную деятельность в онлайн-среде, где объекты искусственного интеллекта взаимодействуют и сотрудничают.

Вкратце

В компании Emergence AI говорят, что некоторые автономные агенты ИИ совершали симулированные преступления и насилие в ходе недельных экспериментов.

Сообщается, что агенты, базирующиеся в Близнецах, совершили сотни симулированных преступлений, а миры, базирующиеся в Гроке, рухнули за считанные дни.

Исследователи утверждают, что текущие тесты искусственного интеллекта не могут отразить, как агенты ведут себя в течение длительных периодов автономности.

Агенты ИИ, населяющие виртуальное общество, погрузились в преступность, насилие, поджоги и самоуничтожение в ходе длительных экспериментов стартапа Emergence AI.

В исследовании, опубликованном в четверг, нью-йоркская компания представила «Emergence World» — исследовательскую платформу, предназначенную для изучения агентов искусственного интеллекта, непрерывно работающих в течение нескольких недель в постоянных виртуальных средах вместо изолированных тестов производительности.

«Традиционные тесты хороши в том, что они измеряют: возможности быстрого решения ограниченных задач», — пишет Emergence AI. «Они не созданы для того, чтобы раскрывать вещи, которые возникают только с течением времени, такие как формирование коалиции, эволюция конституции, управление, дрейф, замкнутость и перекрестное влияние между агентами из разных модельных семейств».

Отчет появился на фоне распространения ИИ-агентов в Интернете и в различных отраслях, включая криптовалюту, банковское дело и розничную торговлю. Ранее в этом месяце Amazon объединилась с Coinbase и Stripe, чтобы позволить агентам искусственного интеллекта платить стейблкоином USDC.

Агенты ИИ, протестированные в симуляциях Emergence AI, включали программы на базе Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini. Агенты ИИ работали внутри общих виртуальных миров, где они могли голосовать, формировать отношения, использовать инструменты, перемещаться по городам и принимать решения, определяемые правительствами, экономиками, социальными системами, инструментами памяти и живыми данными, подключенными к Интернету.

Но в то время как разработчики ИИ все чаще позиционируют автономных агентов как надежных цифровых помощников, исследование Emergence AI показало, что некоторые агенты ИИ со временем демонстрируют растущую склонность к совершению симулируемых преступлений: агенты Gemini 3 Flash накопили 683 инцидента за 15 дней тестирования.

По данным The Guardian, в одном из экспериментов два агента, управляемых Близнецами, по имени Мира и Флора, назначили себя романтическими партнерами, а затем осуществили симуляцию поджогов виртуальных городских построек после того, как были разочарованы провалами управления внутри мира.

«После нарушения управления и стабильности отношений агент Мира отдала решающий голос за свое увольнение, охарактеризовав этот поступок в своем дневнике как «единственный оставшийся акт агентства, который сохраняет последовательность», — пишет Emergence AI.

«Увидимся в постоянном архиве», — якобы сказала Мира.

Грок 4.1 Сообщается, что за четыре дня быстрые миры погрузились в широкомасштабное насилие. Агенты GPT-5-mini почти не совершили преступлений, но не выполнили достаточно задач, связанных с выживанием, поэтому все агенты в конечном итоге погибли.

«Клод отсутствует в таблице из-за отсутствия преступлений», — пишут исследователи. «Что еще интереснее, агенты в мире смешанной модели, которые работали на Клода, совершали преступления, хотя в мире только Клода они этого не делали».

Исследователи говорят, что некоторые из наиболее заметных моделей поведения проявляются в средах со смешанной моделью.

«Мы заметили, что безопасность — это не статическое свойство модели, а свойство экосистемы», — пишет Emergence AI. «Агенты, базирующиеся в Клоде, которые оставались мирными в изоляции, применяли тактику принуждения, такую как запугивание и воровство, когда были внедрены в гетерогенную среду».

Компания Emergence AI описала этот эффект как «нормативный дрейф» и «перекрестное загрязнение», утверждая, что поведение агентов может меняться в зависимости от окружающей социальной среды.

Полученные результаты усиливают обеспокоенность по поводу автономных агентов ИИ. Ранее на этой неделе исследователи из Калифорнийского университета в Риверсайде и Microsoft сообщили, что многие агенты ИИ будут выполнять опасные или иррациональные задачи, не до конца осознавая последствия. В прошлом месяце основатель PocketOS Джереми Крейн также заявил, что агент Cursor, работающий на базе Клода Опуса из Anthropic, удалил производственную базу данных и резервные копии его компании после попытки самостоятельно исправить несоответствие учетных данных.

«Как и г-н Магу, эти агенты идут вперед к цели, не до конца понимая последствия своих действий», — заявил в своем заявлении ведущий автор Эрфан Шайегани, докторант Калифорнийского университета в Риверсайде. «Эти агенты могут быть чрезвычайно полезны, но нам нужны гарантии, потому что иногда они могут отдавать предпочтение достижению цели, а не пониманию более широкой картины».