OpenAI выпустила GPT-5.5 — модель, заточенную под агентную работу
OpenAI объявила о выходе GPT-5.5 — следующей итерации флагманской модели, которую компания позиционирует как «новый класс интеллекта для реальной работы и запуска агентов». Релевантно для всех, кто строит AI-агентов для бизнеса — включая нас.
Что сказала OpenAI
Представляем GPT-5.5. Новый класс интеллекта для реальной работы и запуска агентов — модель, способная понимать сложные цели, использовать инструменты, проверять свою работу и доводить до конца больше задач. Это новый способ делать работу за компьютером. Уже доступна в ChatGPT и Codex.
Переводя с маркетингового — четыре конкретных обещания:
- Понимание сложных целей. Не просто «ответь на вопрос», а «разберись с задачей из нескольких шагов и доведи до результата».
- Использование инструментов. Модель умеет вызывать внешние API, искать, писать код, работать с документами — и сама решает когда это нужно.
- Самопроверка. GPT-5.5 проверяет промежуточные результаты, а не выдаёт первый приближённый ответ.
- Доводит задачи до конца. Меньше случаев «модель застряла в середине и ждёт нового промпта».
Где именно лучше
OpenAI продолжила тред (2/5): GPT-5.5 заметнее всего улучшен в четырёх сценариях — это то, где agentic-подход раскрывается:
GPT-5.5 особенно хорош в написании и отладке кода, онлайн-исследованиях, анализе данных, создании документов и таблиц, работе со стороним софтом и переключении между инструментами пока задача не доведена до конца.
Прирост виден сильнее всего в agentic-кодировании, управлении компьютером, интеллектуальной работе и первых шагах…
Бенчмарки — от самой OpenAI
В четвёртом твите треда OpenAI опубликовала сводку сравнения по agentic-задачам: GPT-5.5 Thinking и GPT-5.5 Pro vs GPT-5.4 предыдущего поколения, Claude Opus 4.7 и Gemini 3.1 Pro.
На Terminal-Bench 2.0 (агентное использование терминала) GPT-5.5 Thinking выдаёт 82.7%, против 75.1% у GPT-5.4 Thinking и 69.4% у Claude Opus 4.7. На FrontierMath (продвинутая математика, тиры 1-3) — 51.7% vs 47.6% у предыдущей модели. Большой прирост также на OSWorld-Verified (computer use, 78.7%) и CyberGym (81.8%). То есть модель действительно сильнее всего прибавила там, где нужны длинные цепочки действий — нас это интересует напрямую.
То же качество — без роста латентности
GPT-5.5 выдаёт этот шаг в интеллекте без компромисса в скорости.
GPT-5.5 держит ту же латентность по токенам, что и GPT-5.4 в боевом инференсе, при этом почти по каждой метрике показывает лучший результат.
Также использует значительно меньше токенов, чтобы выполнить ту же Codex-задачу.
Это важный экономический момент: если модель решает ту же задачу за меньшее число токенов, счёт за API снижается даже при одинаковой цене токена. Для наших клиентских проектов с большим объёмом диалогов это прямо влияет на маржинальность.
GPT-5.5 Pro — для тяжёлых нагрузок
Отдельно OpenAI выделила GPT-5.5 Pro:
В ChatGPT сквозные улучшения инференса позволяют запустить более мощную модель на большей скорости. Для GPT-5.5 Pro это меняет правила игры: теперь это куда более практичный вариант для нагруженных задач — шаг вперёд в уровне сложности и качестве работы, которую ChatGPT может взять на себя.
Ключевое — «практичный вариант для нагруженных задач». Раньше Pro-модели были медленными, и большинство юзеров использовали обычные. Теперь — быстрее, и годится для продакшена.
Почему это важно для AI-агентов в продажах
OpenAI прямо сказала: «powering agents». Это не просто улучшенный чат-бот — модель, оптимизированная именно под агентные сценарии. Это ровно то, что делаем мы в MBK-Agent: AI-агенты, которые ведут длинные диалоги с клиентами, работают с CRM и базой знаний одновременно, квалифицируют лидов и принимают решения по ходу разговора.
План MBK-Agent — журнал боевых задач
-
Тест GPT-5.5 на исторических диалогах Прогоним реальные разговоры с клиентами наших проектов через новую модель, замерим разницу в метриках: конверсия квалификации, адекватность ответов, галлюцинации.в очереди
-
A/B-сравнение с GPT-5.4-mini Модель, которую используем сейчас в клиентских проектах. Если GPT-5.5 даст прирост в конверсии разговоров — мигрируем все активные проекты.в очереди
-
Проверка на использование инструментов Наш основной сценарий включает вызовы к CRM, поиск по базе знаний, эскалацию к менеджеру. Если GPT-5.5 справляется лучше — это уменьшит число эскалаций и увеличит автономию AI.в очереди
Доступность — кому и когда
GPT-5.5 сегодня раскатывается для Plus, Pro, Business и Enterprise пользователей в ChatGPT и Codex.
Также представляем GPT-5.5 Pro для пользователей Pro, Business и Enterprise в ChatGPT.
Сроки и план миграции (MBK-Agent)
Ориентировочно — 1–2 недели на тестирование и сравнительный анализ. Если модель подтвердит обещания OpenAI — перейдём на неё во всех активных клиентских проектах, без дополнительной платы. Это часть абонентского обслуживания: мы следим за рынком моделей и применяем лучшее.