DeepSeek V4: Китайский ИИ-гигант выпускает новые модели для эффективной работы на мощностях Huawei

DeepSeek V4: Китайский ИИ-гигант выпускает новые модели для эффективной работы на мощностях Huawei

Китайская компания DeepSeek, известная своими достижениями в области искусственного интеллекта, представила новые языковые модели с открытым исходным кодом. Разработчики заявляют, что DeepSeek V4 не только способна конкурировать с лучшими проприетарными моделями из США, но и значительно снижает затраты на инференс (выполнение запросов), а также расширяет поддержку ускорителей ИИ семейства Huawei Ascend.

Особенности DeepSeek V4

Модели DeepSeek V4 стали доступны для загрузки на популярных репозиториях, через API компании и в виде веб-сервиса. Они представлены в двух вариантах:

  • Меньшая модель Flash с архитектурой Mixture-of-Experts (MoE) содержит 284 миллиарда параметров, из которых 13 миллиардов активны в любой момент времени.
  • Более крупная модель имеет 1,6 триллиона параметров, при этом активно используется 49 миллиардов.

Версия V4-Pro, обученная на 33 триллионах токенов, по утверждению DeepSeek, превосходит все существующие открытые языковые модели и составляет конкуренцию лучшим проприетарным разработкам Запада по результатам бенчмарков.

Архитектурные нововведения для снижения затрат

В DeepSeek V4 внедрены несколько архитектурных изменений, которые, по словам разработчиков, значительно сокращают стоимость обслуживания моделей.

  • Меньшая Flash-модель: Выпуск второй, меньшей Flash-модели требует меньше инфраструктуры для работы, обеспечивая более интерактивный пользовательский опыт при меньших затратах. Обслуживание небольших моделей, как правило, обходится дешевле.
  • Гибридный механизм внимания: Исследователи DeepSeek представили гибридный механизм внимания, сочетающий технологии Compressed Sparse Attention и Heavy Compressed Attention. Это позволяет сократить вычислительные ресурсы, необходимые для инференса, и объем памяти, используемый KV-кэшами для отслеживания состояния модели.

Оптимизация KV-кэшей является ключевым элементом эффективности DeepSeek V4, поскольку эти кэши могут быть довольно объемными. Провайдеры инференса часто выгружают их в системную или флэш-память, чтобы избежать задержек при "холодном старте". Сильнее сжатые KV-кэши означают меньшие требования к памяти и хранилищу для крупномасштабного развертывания инференса.

В совокупности эти технологии позволяют модели поддерживать контекстное окно до миллиона токенов, используя при этом в 9,5-13,7 раза меньше памяти, чем DeepSeek V3.2.

Использование низкоточной арифметики

Для дальнейшего сокращения занимаемой памяти DeepSeek продолжает использовать типы данных с пониженной точностью. DeepSeek V3 была одной из первых моделей с открытым исходным кодом, обученных с использованием точности FP8. Теперь обе модели V4 используют комбинацию точностей FP8 и FP4. Разработчики модели применили обучение с учетом квантования для весов MoE-экспертов. Использование FP4 фактически вдвое сокращает объем памяти, необходимый для хранения весов модели по сравнению с FP8, что является значительной экономией, если допустимо небольшое снижение точности.

Оптимизация обучения

Архитектурные улучшения DeepSeek не ограничиваются инференсом. В V4 разработчики модели представили новый оптимизатор под названием Muon, разработанный для ускорения сходимости и повышения стабильности обучения.

Поддержка оборудования Huawei

Возможно, одним из самых интригующих аспектов новых моделей является их аппаратная совместимость. В то время как DeepSeek V3 была значительно оптимизирована для графических процессоров Nvidia Hopper, модели V4 прошли валидацию для работы как на ускорителях Nvidia, так и на Huawei.

В документации DeepSeek V4 лишь вскользь упоминается о чипах, отмечается, что компания проверила свою "схему детализированного параллелизма экспертов (EP) как на графических процессорах Nvidia, так и на платформах NPU Ascend". Важно отметить, что это не означает полного обучения модели на оборудовании Huawei, а лишь подтверждает, что ускорители ИИ китайского телекоммуникационного гиганта пригодны для обслуживания модели.

В прошлом DeepSeek предпринимала попытки обучения своих моделей на чипах Huawei, но этот процесс, по сообщениям, столкнулся с трудностями, связанными с нестабильностью чипов, медленными межсоединениями и незрелым программным стеком, что в конечном итоге вынудило компанию вернуться к сотрудничеству с Nvidia.

Использование 4-битных типов данных в V4 может натолкнуть некоторых на мысль о доступе DeepSeek к ускорителям Nvidia Blackwell, которые запрещены к продаже в Китае. Однако это не является строгим требованием. Графические процессоры Hopper не поддерживают аппаратное ускорение FP4, но могут работать с этим типом данных в режиме "только веса". Такой подход не увеличивает производительность вычислений с плавающей запятой, но снижает требования к памяти и пропускной способности как во время обучения, так и во время инференса, что делает его выгодным компромиссом во многих случаях использования.

Стоимость использования DeepSeek V4

DeepSeek V4 в настоящее время находится на стадии предварительного просмотра. Доступны как базовые, так и настроенные версии модели для загрузки или через API компании.

Компания предлагает доступ к меньшей модели по сниженной цене: 0,14 доллара США за миллион входных токенов (без кэширования) и 0,28 доллара США за миллион выходных токенов.

Более крупная модель Pro значительно дороже: 1,74 доллара США за миллион входных токенов и 3,48 доллара США за миллион выходных токенов. Однако это все еще значительно дешевле, чем тарифы западных поставщиков ИИ на доступ к их топовым моделям. Для сравнения, OpenAI взимает 5 долларов США за миллион входных токенов и 30 долларов США за миллион выходных токенов для GPT-5.5.