Обзор рынка ИИ-моделей: Opus 4.8 от Anthropic демонстрирует сопоставимый уровень ошибок с Claude Mythos Preview

Обзор рынка ИИ-моделей: Opus 4.8 от Anthropic демонстрирует сопоставимый уровень ошибок с Claude Mythos Preview

Лаборатории искусственного интеллекта выпускают новые модели непрерывно. Хотя каждая новая версия, как правило, превосходит своих предшественников по скорости и качеству, не все релизы представляют собой кардинальный прорыв, несмотря на поэтичные пресс-релизы компаний. Истинные преимущества моделей становятся очевидными в контексте сравнения: где конкуренты отстают или преуспевают, какие модели обладают уникальными специализациями, а какие лишь догоняют отраслевые стандарты.

Трекер выпуска моделей ZDNET помогает разобраться в положении различных ИИ-систем относительно друг друга и определить, стоит ли изучать их более глубоко. Хотя не каждая модель или обновление, включенное в список, проходит полное тестирование, обзор всегда содержит ключевую информацию, а применительно — и экспертную оценку ZDNET, основанную на практическом опыте. Интересно, как ZDNET тестирует ИИ? Ознакомьтесь с подробным описанием этого процесса.

Ниже представлены некоторые из крупнейших релизов моделей 2026 года и основные сведения о них. Этот список будет регулярно обновляться по мере появления новых значимых ИИ-систем.

Claude Opus 4.8

Anthropic | 28 мая 2026 года

Возможности: Модель Opus 4.8, пришедшая на смену Opus 4.7 по той же цене, предлагает более быстрые режимы обработки данных при одной трети стоимости предыдущей версии, как сообщает Anthropic. Как и большинство моделей компании, 4.8 уделяет приоритетное внимание возможностям кодирования, показывая более высокие результаты, чем 4.7, в двух тестах по программированию, но не превосходя полностью GPT 5.5 от OpenAI. В релизе компания также отметила, что модель "достигает новых высот в измерении просоциальных качеств, таких как поддержка автономии пользователя и действия в его интересах", хотя точные определения этих понятий остаются неясными.

Значение: Anthropic всегда ставила во главу угла безопасность и интерпретируемость моделей, и этот релиз, по всей видимости, дополнительно подчеркивает данный стандарт. Ранее компания заявляла, что Opus 4.7 обладал 92% уровнем "честности" (способности генерировать правдивую информацию), а также был менее подобострастным и склонным к "галлюцинациям" (генерации ложной информации). Утверждение о том, что Opus 4.8 демонстрирует "существенно" более низкие показатели несоответствия желаемому поведению по сравнению с 4.7, указывает на постоянно растущие стандарты безопасности моделей, тем более что Anthropic сравнила уровень соответствия 4.8 с показателями Claude Mythos Preview.

GPT-5.5 Instant

OpenAI | 5 мая 2026 года

Возможности: OpenAI в своем анонсе заявила, что облегченная версия недавно выпущенной GPT-5.5 менее многословна, чем ее предшественница, GPT-5.3 Instant. Также было отмечено снижение числа "галлюцинаций" (генерации ложной информации) и улучшение фактической точности: "GPT-5.5 Instant выдавала на 52,5% меньше ложных утверждений по сравнению с GPT-5.3 Instant при работе с важными запросами в таких областях, как медицина, право и финансы".

Значение: GPT-5.5 Instant заменила GPT-5.3 в качестве модели по умолчанию в ChatGPT. Хотя ожидается, что каждая новая ИИ-модель будет более эффективной, простой в использовании и менее склонной к вымыслам, значительное улучшение в борьбе с галлюцинациями для модели, которую большинство людей используют для быстрых запросов, может означать уменьшение распространения дезинформации. Это особенно важно, учитывая, сколько людей используют ChatGPT для повседневных вопросов о здоровье, например.

(Примечание: Ziff Davis, материнская компания ZDNET, подала иск против OpenAI в апреле 2025 года, утверждая о нарушении авторских прав Ziff Davis при обучении и эксплуатации своих ИИ-систем.)

Nemotron 3 Nano Omni

Nvidia | 28 апреля 2026 года

Возможности: Эта модель, новейшая в открытом семействе Nemotron от Nvidia, предоставляет агентам мультимодальный ввод. Это означает, что они могут "воспринимать и рассуждать, используя визуальные, аудио и текстовые данные в рамках единого цикла восприятия и действия", как заявляет Nvidia, тем самым объединяя множество возможностей в одной системе.

Значение: Обычно системы агентов вынуждены использовать отдельные модели для речи, зрения и текста, что означает переключение между документами, видео и аудио для выполнения многоэтапных задач. Это замедляет рабочие процессы, подрывает контекст, собираемый агентами, и увеличивает затраты на инференс (расчеты модели при ее использовании). Подход Nvidia, если он окажется успешным, упростит этот процесс и сократит использование токенов (единиц текста, обрабатываемых ИИ), что позволит сэкономить средства. Модель доступна для тестирования на платформе Hugging Face.

GPT-5.5

OpenAI | 23 апреля 2026 года

Экспертная оценка ZDNET: 93/100

Возможности: Обозреватель ZDNET Дэвид Гевирц присвоил GPT-5.5 оценку A-, отметив, что модель "можно упрощенно описать как улучшенную и ускоренную версию GPT-5.4". Это соответствует минимальным ожиданиям от новой версии. В частности, модель улучшила свои способности в агентском программировании (когда ИИ действует как автономный агент), более четком определении концепций, научных исследованиях и фактической точности.

Значение: Хотя сама модель может не быть огромным скачком вперед по сравнению с непосредственной предшественницей, быстрый выпуск версий 5.4 и 5.5 (менее чем за два месяца) указывает на то, как стремительно агентское программирование ускоряет цикл выпуска моделей OpenAI. Как отмечает Дэвид Гевирц, компания, как и другие ведущие лаборатории, использующие ИИ для создания ИИ, выпускает обновления с экспоненциально растущей скоростью.

ChatGPT Images 2

OpenAI | 23 апреля 2026 года

Возможности: Вскоре после прекращения работы Sora, своей модели для генерации видео и социальной платформы, OpenAI несколько запутанно анонсировала Images 2. Тестировщик моделей ZDNET Дэвид Гевирц получил ранний доступ к Images 2 до его выпуска и был впечатлен. Хотя формальной экспертной оценки этой модели присвоено не было, Гевирц назвал её "увлекательной, значительным прорывом и действительно полезной для работы".

Значение: Казалось, что OpenAI уходит из сегмента ИИ-продуктов, ориентированных на широкого потребителя, когда прекратила поддержку Sora, уступив Anthropic в получении выгодных корпоративных контрактов. То, что OpenAI все же выпустила Images 2 в рамках этой новой стратегии, указывает на то, что компания считает генераторы изображений достаточно важными для корпоративного ИИ, особенно после появления Claude Design от Anthropic.

Claude Opus 4.7

Anthropic | 16 апреля 2026 года

Возможности: Эта модель, выпущенная относительно быстро после Opus 4.6, может похвастаться новыми максимумами в "честности" (способности генерировать правдивую информацию), уменьшением подобострастности и "галлюцинаций" (генерации ложной информации). Она также, по всей видимости, демонстрирует способности в области кибербезопасности, поддерживая новую Claude Security, выпущенную вскоре после самой модели. Однако это не оказалась Mythos, как многие предполагали.

Значение: "Галлюцинации" и "честность" являются одними из самых сложных и трудноразрешимых проблем, затрагивающих даже лучшие модели. Для лаборатории ИИ, которая серьезно относится к безопасности, заявления Anthropic о столь значительных улучшениях в этих областях — немалое достижение.

Claude Mythos (Предварительная версия)

Anthropic | 7 апреля 2026 года

Возможности: Эта модель представляет собой сложный случай, поскольку Mythos пока недоступна для широкой публики. Anthropic вызвала значительный ажиотаж в СМИ, позиционировав новую универсальную модель как слишком мощную для обычного выпуска. Хотя модель, по всей видимости, является значительным шагом вперед по сравнению с предыдущими моделями Anthropic, компания была особенно обеспокоена угрозой безопасности, которую она представляет, заявив, что "она поразительно способна к выполнению задач в области компьютерной безопасности".

В ответ на это Anthropic возглавила Проект Glasswing — совместную инициативу с несколькими конкурирующими ИИ-лабораториями, включая Google, Nvidia и Microsoft, а также с органами безопасности, такими как Palo Alto Networks. Цель проекта — "помочь обезопасить наиболее критичное программное обеспечение в мире и подготовить отрасль к практикам, которые всем нам потребуется принять, чтобы опережать кибератакующих".

Значение: Если верить заявлениям Anthropic о том, что Mythos представляет значительную угрозу для мирового программного обеспечения — настолько, что доступ к ней имеют лишь избранные партнеры, — то существующие аппараты кибербезопасности могут быть не готовы к стремительно развивающимся возможностям моделей. Mythos может быть не единственной моделью такого уровня, но лишь первой из многих, которые появятся, как только другие лаборатории достигнут аналогичных прорывов.

На данный момент, всего через несколько недель после своего анонса, Mythos уже помогает в массовом обнаружении программных ошибок.

GPT-5.4

OpenAI | 5 марта 2026 года

Возможности: OpenAI представила эту новую модель, выпущенную едва через три месяца после GPT-5.2, как специально разработанную для профессиональной работы. Согласно собственным тестам компании (результаты которых всегда следует принимать с долей скепсиса, пока они не будут проверены независимой стороной), GPT-5.4 соответствует или превосходит человеческих специалистов в 83% случаев.

Значение: Поскольку ИИ-компании все больше сосредоточены на завоевании доверия (и контрактов) корпоративного сектора, активно продвигая возможности агентского ИИ, им нужны модели, способные справляться со сложными рабочими задачами с минимальным риском, задержками или чрезмерно высокими затратами. Любое улучшение модели, демонстрирующее мастерство в профессиональных рабочих процессах, имеет больше шансов быть воспринятым всерьез компаниями, которые сталкиваются с трудностями при внедрении ИИ, хотя ничто не гарантирует бесшовной интеграции.

Claude Opus 4.6

Anthropic | 5 февраля 2026 года

Возможности: Эта модель быстро переопределила стандарт для автономной агентской работы, особенно в области кодирования. Это неудивительно, учитывая авторитет Anthropic в создании моделей, особо приспособленных для задач программирования. Opus 4.6 также продемонстрировала улучшение в целом для выполнения сложных, длительных задач.

Значение: Способность Opus 4.6 лучше справляться с задачами самостоятельно означает, что на нее можно надежно переложить большую часть рабочего процесса — с чем обычно сталкиваются трудности агентские предложения.

GPT-5.3-Codex

OpenAI | 5 февраля 2026 года

Возможности: Эта новая модель для кодирования, которая, по заявлению OpenAI, помогала сама себе в создании и отладке, может быть прервана и перенаправлена посреди выполнения задачи. Если это правда, то это огромное преимущество для разработчиков, использующих ее в сложных или постоянно меняющихся проектах с большим количеством проб и ошибок. GPT-5.3-Codex также может похвастаться временем выполнения задач более суток и лучшим пониманием намерений пользователя.

Значение: OpenAI стремится догнать Anthropic в области агентского программирования (и, по совпадению или нет, выпустила 5.3 Codex в тот же день, когда Anthropic запустила Opus 4.6). Хотя эксперты ZDNET часто предпочитают Claude Code другим инструментам для "атмосферного" программирования (неформального кодирования с упором на стилистику и общую логику), предполагаемый сдвиг OpenAI в сторону корпоративных клиентов и отказ от развлекательных потребительских инструментов может в конечном итоге сократить этот разрыв.