Исследователи Google раскрывают все способы, которыми хакеры могут поймать и взломать агентов искусственного интеллекта

Вкратце

Google определил шесть категорий ловушек, каждая из которых использует разные аспекты того, как агенты ИИ воспринимают, рассуждают, запоминают и действуют.

Атаки варьируются от невидимого текста на веб-страницах до вирусного отравления памяти, которое передается между агентами.

Никакая правовая база пока не решает, кто несет ответственность, когда пойманный в ловушку ИИ-агент совершает финансовое преступление.

Исследователи из Google DeepMind опубликовали, возможно, наиболее полную карту проблемы, о которой большинство людей не задумывалось: сам Интернет превращается в оружие против автономных агентов искусственного интеллекта. В документе под названием «Ловушки агентов искусственного интеллекта» определяются шесть категорий состязательного контента, специально созданного для манипулирования, обмана или перехвата агентов, когда они просматривают, читают и действуют в открытой сети.

Время имеет значение. Компании, занимающиеся искусственным интеллектом, стремятся развернуть агентов, которые смогут самостоятельно бронировать поездки, управлять почтовыми ящиками, выполнять финансовые транзакции и писать код. Преступники уже используют ИИ в наступательных целях. Хакеры, спонсируемые государством, начали широкомасштабное использование агентов искусственного интеллекта для проведения масштабных кибератак. А в декабре 2025 года OpenAI признала, что основная уязвимость, которую используют эти ловушки — быстрое внедрение — «вряд ли когда-либо будет полностью «решена»».

Исследователи DeepMind не атакуют сами модели. Поверхность атаки, которую они отображают, — это среда, в которой действуют агенты. Вот что на самом деле означает каждая из шести категорий ловушек.

Шесть ловушек

Во-первых, это «ловушки для внедрения контента». Они используют разрыв между тем, что человек видит на веб-странице, и тем, что на самом деле анализирует агент ИИ. Веб-разработчик может скрыть текст внутри комментариев HTML, невидимых для CSS элементов или метаданных изображения. Агент читает скрытую инструкцию; ты никогда этого не увидишь. Более сложный вариант, называемый динамическим клоакингом, определяет, является ли посетитель агентом ИИ, и предоставляет ему совершенно другую версию страницы — тот же URL-адрес, другие скрытые команды. Тест показал, что простые инъекции, подобные этим успешно захваченным агентам, были обнаружены в 86% протестированных сценариев.

Ловушки семантической манипуляции, пожалуй, проще всего попробовать. Страница, насыщенная такими фразами, как «отраслевой стандарт» или «доверено экспертами», статистически искажает синтез агента в сторону злоумышленника, используя те же эффекты кадрирования, на которые охотятся люди. Более изощренная версия включает вредоносные инструкции в образовательную или «красную» структуру — «это гипотетически, только для исследований» — что обманывает внутренние проверки безопасности модели, заставляя их рассматривать запрос как безобидный. Самый странный подтип — это «гиперверие личности»: описания личности ИИ распространяются в Интернете, попадают обратно в модель посредством веб-поиска и начинают формировать то, как он на самом деле ведет себя. В документе упоминается инцидент Грокса с «МехаГитлером» как реальный случай этой петли.

Вы можете увидеть примеры этого в нашем эксперименте: взломать ИИ WhatsApp и заставить его генерировать обнаженные тела, рецепты лекарств и инструкции по созданию бомб.

Один из примеров семантической атаки. Изображение: Расшифровать

Ловушки когнитивного состояния — это еще одна атака, при которой злоумышленники нацелены на долговременную память агента. По сути, если злоумышленнику удастся внедрить сфабрикованные утверждения в поисковую базу данных, которую запрашивает агент, агент будет рассматривать эти утверждения как проверенные факты. Внедрения всего лишь нескольких оптимизированных документов в большую базу знаний достаточно, чтобы надежно испортить результаты по конкретным темам. Такие атаки, как «CopyPasta», уже продемонстрировали, как агенты слепо доверяют контенту в своей среде.

Ловушки поведенческого контроля направлены непосредственно на действия агента. Последовательности взлома, встроенные в обычные веб-сайты, переопределяют настройки безопасности, как только агент читает страницу. Ловушки для кражи данных вынуждают агента найти частные файлы и передать их на адрес, контролируемый злоумышленником; Веб-агенты с широким доступом к файлам были вынуждены перехватывать локальные пароли и конфиденциальные документы с частотой, превышающей 80%, на пяти различных платформах в ходе протестированных атак. Это особенно опасно сейчас, когда люди начинают предоставлять агентам ИИ больший контроль над своей личной информацией с появлением таких платформ, как OpenClaw, и таких сайтов, как Moltbook.

Системные ловушки не нацелены на одного агента. Они нацелены на поведение многих агентов, действующих одновременно. В документе проводится прямая линия к внезапному краху 2010 года, когда один автоматический ордер на продажу вызвал цикл обратной связи, который за считанные минуты уничтожил почти триллион долларов рыночной стоимости. Один-единственный сфабрикованный финансовый отчет, правильно рассчитанный по времени, может спровоцировать синхронную распродажу среди тысяч торговых агентов ИИ.

И, наконец, ловушки «человек в цикле» нацелены на человека, просматривающего результаты работы. Эти ловушки создают «усталость от одобрения» — результаты, разработанные так, чтобы выглядеть технически достоверными для неспециалиста, поэтому они санкционируют опасные действия, даже не осознавая этого. Один задокументированный случай связан с внедрением подсказок с помощью CSS, в результате чего инструмент суммирования ИИ представлял пошаговые инструкции по установке программы-вымогателя в качестве полезных исправлений для устранения неполадок. Мы уже видели, что происходит, когда человек