Claude Opus 4.7 уже здесь: последняя модель Anthropic работает, но это машина пожирания токенов

Вкратце

Anthropic только что выпустила свою самую функциональную модель Opus — Claude Opus 4.7.

Модель обеспечивает значительные преимущества в программировании и рассуждениях, но не является спорной моделью Mythos, которую Anthropic предлагает избранным партнерам.

Claude Opus 4.7 демонстрирует видимую цепочку мыслей и необычно высокий уровень использования токенов.

Сегодня Anthropic отправила Claude Opus 4.7, назвав ее самой функциональной моделью Opus компании. Мы протестировали это, и маркетинг соответствует результатам.

«Наша последняя модель, Claude Opus 4.7, теперь общедоступна». Об этом говорится в официальном заявлении компании. «Пользователи сообщают, что могут с уверенностью передать свою самую тяжелую работу по кодированию — ту, которая раньше требовала пристального контроля — Opus 4.7».

Модель появилась сразу после нескольких недель жалоб пользователей на то, что Opus 4.6 якобы теряет свои преимущества. Разработчики на GitHub, Reddit и X задокументировали то, что они назвали «сжатием искусственного интеллекта» — ощущение, что модель, за которую они платили, незаметно стала хуже. Как мы сообщали вчера, Anthropic уже готовила 4.7, одновременно работая над чем-то гораздо более мощным, что она не может опубликовать публично: Claude Mythos.

Когда сегодня утром появилось объявление, пользователи X, которые громче всех говорили о деградации версии 4.6, поспешили ответить с сарказмом: Opus 4.7, как некоторые пошутили, ощущался как «ранний Opus 4.6» — версия, которая людям действительно нравилась, прежде чем они поверили, что Anthropic незаметно выключил регуляторы. Anthropic, конечно же, отрицает, что когда-либо снижала вес моделей для управления вычислительными потребностями.

С возвращением, опус 4.6 pic.twitter.com/hpwNkrq1tD

– Дев Эд (@developedbyed) 16 апреля 2026 г.

Тесты подтверждают заявления Anthropic. В тесте SWE-bench Multilingual, измеряющем навыки программирования, Opus 4.7 набрал 80,5% против 77,8% у 4.6.

По данным GDPVal-AA, независимой оценки экономически ценной научной работы в финансовой и юридической областях, 4,7 набрал 1753 балла Эло против 1674 у GPT-5.4 — явное преимущество над ближайшим конкурентом.

Анализ документов с помощью OfficeQA Pro показал самый резкий скачок: 80,6% для версии 4,7 против 57,1% для версии 4,6, при этом GPT-5.4 и Gemini 3.1 Pro отстают на 51,1% и 42,9% соответственно. Долгосрочная согласованность на Vending-Bench 2, эталоне, который измеряет, насколько хороши модели в длительном контексте и задачах рассуждения, таких как владение торговым бизнесом, показывает денежный баланс в размере 10 937 долларов США по сравнению с 8 018 долларами США для версии 4,6 — показатель того, насколько хорошо модель поддерживает полезное поведение в течение длительных автономных прогонов.

Кибербезопасность — это единственная область, которую Anthropic намеренно сдерживала. Opus 4.7 запускается с автоматическими средствами защиты, которые обнаруживают и блокируют запрещенные или высокорискованные запросы кибербезопасности. Anthropic подтвердила, что «экспериментировала с попытками дифференцированного снижения» кибервозможностей 4.7 во время обучения.

Специалисты по безопасности могут подать заявку на участие в новой программе киберверификации для получения доступа к этим функциям. Это тестовый запуск компании для проверки мер безопасности, которые ей в конечном итоге необходимо будет внедрить с помощью моделей класса Mythos в большом масштабе.

Opus 4.7 — самая мощная модель, доступная в открытом доступе. Mythos Preview, настоящая передовая модель Anthropic, по-прежнему доступна только проверенным охранным фирмам. По оценкам британского Института безопасности искусственного интеллекта на прошлой неделе, Mythos был первым искусственным интеллектом, завершившим «Последние» — 32-этапную симуляцию атаки на корпоративную сеть, которая обычно занимает у красных команд людей 20 часов.

Опус 4.7 это не то. Но это публичная модель, которую Anthropic будет использовать, чтобы узнать, как эти защитные ограждения выдерживают себя в дикой природе, прежде чем она осмелится выпустить что-то более страшное.

Что касается токенов, Opus 4.7 использует обновленный токенизатор, который может сопоставлять одни и те же входные данные примерно в 1,0–1,35 раза больше токенов в зависимости от типа контента. Модель также больше рассуждает при более высоких уровнях усилий, особенно на более поздних этапах агентских рабочих процессов. Anthropic опубликовала руководство по миграции для разработчиков, планирующих обновиться с версии 4.6.

Мы провели собственный тест — ту же самую подсказку по созданию игры, которую мы использовали для оценки каждой крупной версии модели. Opus 4.7 показал лучший результат, который мы когда-либо получали от любой модели. Самая визуально безупречная игра, самая по-настоящему сложная кривая сложности, лучшая механика и самые креативные экраны побед и поражений. Казалось, что уровни генерируются процедурно, и ни один из них не казался невозможным — баланс, который неоднократно сбивал с толку другие модели.

Вы можете протестировать игру здесь

Emerge: The Game, созданная Клодом Опусом 4.7.

Это был не нулевой выстрел. Опус 4.6 прошел тот же тест без каких-либо исправлений. Opus 4.7 нуждался в одном раунде исправлений ошибок. Это может быть неудачей — одна итерация — это небольшая выборка, но это стоит отметить. Больше всего нас поразило то, как модель справилась с этим раундом: она сама обнаружила дополнительные ошибки, не направляясь к ним. Опус 4.6 обычно ждал, пока ему скажут, где искать.

Xiaomi MiMo v2 Pro до сих пор была моделью с лучшими результатами, но в отличие от Opus она давала рабочий результат без необходимости более одной итерации. Некоторые могут возразить, что она была более приятна визуально и имела саундтрек, что было преимуществом, но логика и физика игры