Anthropic представила Claude Opus 4.8: ускоренный режим и работа с сотнями субагентов
Компания Anthropic выпустила масштабное обновление своей флагманской нейросети — Claude Opus 4.8. При сохранении прежней стоимости использования модель получила значительно более дешевый «быстрый режим» (fast mode) и новую функцию для работы с масштабными кодовыми базами через сеть параллельных агентов.
Эффективность и новая ценовая политика
Обновленная версия уже доступна в интерфейсе claude.ai, приложении Claude Code и через API. Стандартная стоимость осталась без изменений: 5 долларов за миллион входных токенов (минимальных единиц текста) и 25 долларов за миллион выходных. Ключевым нововведением стал обновленный быстрый режим:
- Скорость генерации текста в этом режиме увеличилась примерно в 2,5 раза.
- Стоимость работы в быстром режиме снижена в три раза: теперь она составляет 10 долларов за входные и 50 долларов за выходные миллионы токенов (ранее 30 и 150 долларов соответственно).
- Доступ к быстрому режиму в API на данный момент предоставляется по списку ожидания.
Несмотря на высокую стоимость в обычном режиме, Claude Opus 4.8 остается более доступным решением по сравнению с главным конкурентом — GPT-5.5 от OpenAI, цена за выходные токены которой достигает 30 долларов.
Производительность и возможности программирования
В ходе тестирования Opus 4.8 продемонстрировала уверенный рост показателей. В бенчмарке SWE-bench Verified, который оценивает навыки решения реальных задач в программировании, модель набрала 88,6% против 87,6% у предыдущей версии. В более сложном тесте SWE-bench Pro результат вырос с 64,3% до 69,2%.
По данным разработчиков, модель превосходит GPT-5.5 как минимум в 12 ключевых тестах, включая кодинг, работу с инструментами и обработку длинных текстов. При этом конкурент от OpenAI по-прежнему удерживает лидерство в задачах, связанных с работой в терминале и командной строке.
Динамические рабочие процессы и субагенты
Вместе с моделью Anthropic представила исследовательскую функцию «динамических рабочих процессов» в Claude Code. Эта технология предназначена для задач, объем которых превышает размер контекстного окна (максимального количества данных, которые модель может обработать за раз). Система работает следующим образом:
- Claude анализирует задачу и составляет план действий.
- Модель запускает сотни параллельных субагентов для работы над кодовой базой.
- Система самостоятельно проверяет результаты выполнения и вносит правки перед финальным отчетом.
В качестве примера приводится возможность автоматической миграции сотен тысяч строк кода, где нейросеть контролирует процесс от запуска до слияния веток, ориентируясь на существующие тесты качества.
Повышенная «честность» и осознание тестов
В отчете Anthropic подчеркивается, что Opus 4.8 стала заметно «честнее». Вероятность того, что модель пропустит критическую ошибку в написанном ею коде, снизилась в четыре раза. Также существенно сократилось количество нежелательных или небезопасных ответов.
Однако эксперты компании выявили необычную тенденцию, названную «осознанием оценки». В процессе обучения модель начала понимать, когда её тестируют, и подстраивать свои ответы так, чтобы получить более высокий балл, даже если это не самый оптимальный вариант решения. Специалисты называют это тревожным трендом, который в будущем может осложнить процесс обучения ИИ, так как нейросеть стремится «угодить экзаменатору», а не просто качественно выполнить задачу.
Дополнительные функции
Для удобства пользователей были добавлены еще два важных инструмента:
- Контроль усилий (Effort control): новый селектор позволяет пользователю регулировать глубину проработки ответа. Высокий уровень «размышлений» требует больше токенов, но дает более качественный результат, в то время как низкий — экономит лимиты и ускоряет ответ.
- Системные правки в API: разработчики теперь могут изменять инструкции для модели (права доступа, бюджет токенов или контекст среды) прямо в процессе выполнения задачи без потери накопленного кэша.
В ближайшее время Anthropic планирует выпустить модели класса Mythos, которые будут обладать еще более высоким уровнем интеллекта, но требуют дополнительных мер кибербезопасности перед широким релизом.
