Представлено революционное обновление искусственного интеллекта: последняя версия DeepSeek снижает премиальные сборы до доли цены GPT 5.5

Вкратце

DeepSeek выпустил новую модель V4-Pro с 1,6 триллиона параметров.

Он стоит $1,74/$3,48 за миллион токенов ввода/вывода, что примерно на 1/20 дешевле Claude Opus 4.7 и на 98 % меньше, чем GPT 5.5 Pro.

DeepSeek частично обучил V4 чипам Huawei Ascend, обходя экспортные ограничения США, и заявляет, что как только в 2026 году в эксплуатацию выйдут 950 новых суперузлов, и без того низкая цена модели Pro еще больше снизится.

DeepSeek вернулся, и он появился через несколько часов после того, как OpenAI отказался от GPT-5.5. Совпадение? Может быть. Но если вы — китайская лаборатория искусственного интеллекта, которую правительство США пытается замедлить с помощью запретов на экспорт чипов в течение последних трех лет, ваше чувство времени становится довольно острым.

Лаборатория в Ханчжоу сегодня выпустила предварительные версии DeepSeek-V4-Pro и DeepSeek-V4-Flash, обе с открытым весом и с одним миллионом контекстных окон токенов. Это означает, что вы можете работать с контекстом размером примерно с трилогию «Властелин колец», прежде чем модель рухнет. Оба продукта также стоят значительно ниже, чем что-либо сопоставимое на Западе, и оба бесплатны для тех, кто может работать на местном уровне.

Последний крупный сбой DeepSeek — R1 в январе 2025 года — за один день уничтожил рыночную капитализацию Nvidia на 600 миллиардов долларов, поскольку инвестор задался вопросом, действительно ли американским компаниям нужны такие огромные инвестиции для достижения результатов, которых небольшая китайская лаборатория достигла с небольшой долей затрат. V4 — это другой тип решения: более тихий, более технический и более ориентированный на эффективность для всех, кто действительно строит с помощью ИИ.

Две модели, совершенно разные задачи

Из двух новых моделей DeepSeek V4-Pro является самой крупной с общим количеством параметров 1,6 триллиона. Если рассматривать это в перспективе, параметры — это внутренние «настройки» или «клетки мозга», которые модель использует для хранения знаний и распознавания закономерностей: чем больше параметров имеет модель, тем более сложную информацию она теоретически может хранить. На сегодняшний день это самая крупная модель с открытым исходным кодом на рынке LLM. Размер может показаться смешным, пока вы не узнаете, что он активирует только 49 миллиардов из них за проход вывода.

Это трюк «Смесь экспертов», который DeepSeek усовершенствовал со времен V3: полная модель находится там, но только соответствующая ее часть просыпается по любому заданному запросу. Больше знаний, тот же счет за вычисления.

«DeepSeek-V4-Pro-Max, режим максимального рассуждения DeepSeek-V4-Pro, значительно расширяет возможности знаний моделей с открытым исходным кодом, прочно зарекомендовав себя как лучшая модель с открытым исходным кодом, доступная сегодня», — написал Deepseek в официальной карточке модели на Huggingface. «Он обеспечивает высочайшую производительность в тестах кодирования и значительно сокращает разрыв с ведущими моделями с закрытым исходным кодом для рассуждений и агентных задач».

V4-Flash — практичный вариант: 284 миллиарда общих параметров, 13 миллиардов активных. Он разработан, чтобы быть быстрее, дешевле и, согласно собственным тестам DeepSeek, «достигает производительности рассуждений, сравнимой с версией Pro, при большем бюджете на мышление».

Оба поддерживают один миллион токенов контекста. Это примерно 750 000 слов — примерно вся трилогия «Властелин колец» плюс изменения. И это стандартная функция, а не премиум-уровень.

Секретный соус Deepseek (не очень): сделать внимание не страшным в масштабе

Вот техническая часть для ботаников или тех, кто интересуется магией, питающей модель. Deepseek не скрывает своих секретов, и все доступно бесплатно — полная версия статьи доступна на Github.

Стандартное внимание ИИ — механизм, который позволяет модели понимать взаимосвязи между словами — имеет серьезную проблему масштабирования. Каждый раз, когда вы удваиваете длину контекста, затраты на вычисления увеличиваются примерно в четыре раза. Таким образом, запуск модели на миллионе токенов не в два раза дороже, чем на 500 000 токенов. Это в четыре раза дороже. Вот почему исторически длинный контекст представлял собой установку флажков в лабораториях, а затем незаметное регулирование скорости за пределами ограничений.

Чтобы обойти эту проблему, компания DeepSeek изобрела два новых типа внимания. Первый, «Сжатое разреженное внимание», работает в два этапа. Сначала он сжимает группы токенов — скажем, каждые 4 токена — в одну запись. Затем вместо того, чтобы обрабатывать все эти сжатые записи, он использует «Индексатор Lightning», чтобы выбрать только наиболее релевантные результаты для любого заданного запроса. Ваша модель переходит от работы с миллионом жетонов к работе с гораздо меньшим набором наиболее важных фрагментов, что-то вроде библиотекаря, который не читает каждую книгу, но точно знает, какую полку проверить.

Второй вариант, «Сильно сжатое внимание», более агрессивен. Он сжимает каждые 128 токенов в одну запись — никакого разреженного выбора, просто жесткое сжатие. Вы теряете мелкие детали, но получаете чрезвычайно дешевый глобальный обзор. Два типа внимания выполняются на чередующихся уровнях, поэтому модель получает как детали, так и обзор.

Результат из технического документа: при одном миллионе токенов V4-Pro использует 27% вычислительных ресурсов, необходимых его предшественнику (V3.2). Кэш KV — память, необходимая модели для отслеживания контекста — снижается до 10 % по сравнению с версией V3.2. V4-Flash расширяет возможности: 10 % вычислительных ресурсов, 7 % памяти.