OpenAI опубликовала практическое руководство «Codex-maxxing for long-running work», в котором впервые подробно показала, как её ИИ-агент Codex способен непрерывно работать над одной задачей десятки часов. В стресс-тесте Codex на модели GPT-5.3-Codex проработал около 25 часов без перерыва, израсходовал примерно 13 млн токенов и сгенерировал около 30 000 строк кода — следуя спецификации, запуская проверки и самостоятельно исправляя ошибки. Это означает, что ИИ-агенты перестают быть инструментом для коротких подсказок и превращаются в исполнителей длинных инженерных задач. В этой статье разбираем, что именно произошло, почему это важно для разработчиков в России и СНГ и что делать прямо сейчас.
Что произошло?
OpenAI выпустила материал, в котором инженер Джейсон Лю описывает стратегии «выжимания максимума» из Codex для длинных задач — отсюда и сленговое «maxxing» в заголовке. Ключевая идея: Codex стоит воспринимать не как чат-помощника, а как постоянное рабочее пространство, которое сохраняет контекст, ведёт сложные многошаговые процессы и доводит до конца работу, растянутую на часы.
Главная техническая новость — поведение модели GPT-5.3-Codex на длинной дистанции. По данным OpenAI, в показательном прогоне агент удержал связность на протяжении примерно 25 часов: он не «терял нить», после каждой итерации прогонял тесты и чинил то, что ломалось. Раньше подобные автономные забеги разваливались уже через несколько шагов.
Что конкретно изменилось в подходе:
- агент дольше сохраняет когерентность — то есть не забывает исходную цель и накопленный контекст;
- он выполняет более крупные блоки работы «от начала до конца», а не отдельные мелкие правки;
- он восстанавливается после ошибок самостоятельно, в цикле «план → реализация → проверка → починка»;
- его можно «подруливать» на ходу, не сбрасывая весь прогон с нуля.
OpenAI в сопроводительной публикации руководстве для разработчиков «Run long horizon tasks with Codex» объясняет методику: амбициозную цель нужно разбивать на проверяемые шаги, а исполнение делегировать агенту там, где есть чёткий критерий «сделано».
Что такое Codex и GPT-5.3-Codex простыми словами?
Codex — это агент для программирования от OpenAI. В отличие от обычного чата, он умеет работать прямо с кодовой базой: читать файлы, вносить изменения, запускать команды и тесты, видеть результат и реагировать на него. Это автономный исполнитель, а не просто генератор текста.
GPT-5.3-Codex — это специализированная под код версия флагманской модели. По заявлению OpenAI на странице анонса GPT-5.3-Codex, она сочетает топовое качество написания кода с общими рассуждениями и заметно лучше справляется с многошаговым исполнением: спланировать, реализовать, проверить, починить.
Практическое изменение в том, что агенты теперь дольше остаются связными, доводят до конца более крупные куски работы и восстанавливаются после ошибок, не теряя нить рассуждения.
Иными словами, граница между «ИИ помог с фрагментом» и «ИИ сделал задачу целиком» сдвигается. Для длинных задач — миграций, рефакторингов, написания тестов на весь модуль — это качественный, а не количественный скачок.
Почему 25 часов и 30 000 строк — это важно?
Цифры сами по себе эффектны, но значимо не столько время прогона, сколько то, какие именно навыки модель удержала на дистанции. По данным OpenAI, агент хорошо отработал ровно те аспекты, которые критичны для длинных задач: следование спецификации, удержание фокуса, прогон проверок и починка падений по ходу дела.
Почему это сложно технически? Чем дольше идёт прогон, тем больше накапливается контекста и тем легче агенту «съехать» с задачи: начать решать не ту проблему, забыть ограничения, зациклиться на ошибке. Удержать связность 25 часов — это про управление контекстом и дисциплину самопроверки, а не про сырую скорость генерации.
Что это даёт на практике:
- Крупные задачи целиком. Полная миграция между фреймворками или покрытие модуля тестами становятся одним заданием, а не сотней мелких подсказок.
- Меньше ручной склейки. Разработчику не нужно собирать результат из обрывков ответов чата.
- Самопроверка встроена. Агент сам гоняет тесты и чинит регрессии, а не выдаёт код «на веру».
- Управляемость. Прогон можно корректировать в процессе, не начиная заново.
Полная методика «выжимания максимума» из агента изложена в оригинальном материале OpenAI о Codex для длинных задач и в открытом примере из репозитория OpenAI Cookbook про long-horizon tasks.
Как это повлияет на пользователей в России и СНГ?
Для разработчиков из России и СНГ новость двойственная. С одной стороны, планка автономности ИИ-агентов растёт, и команды, у которых есть доступ к актуальным моделям, получают ощутимое преимущество в скорости. С другой — прямой доступ к продуктам OpenAI из РФ затруднён: нужна иностранная карта, зарубежный номер, а часто и обход блокировок.
Именно здесь полезны агрегаторы. Через WebGPT (ask.gptweb.ru) можно работать с топовыми моделями OpenAI без VPN и без зарубежной карты — с оплатой российскими способами и интерфейсом на русском языке. Это снимает главный барьер: технология есть, осталось получить к ней доступ легальным и удобным путём.
Несколько практических следствий для региона:
- порог входа в «агентную» разработку снижается — не нужно настраивать платёжную инфраструктуру под зарубежные сервисы;
- команды могут тестировать длинные сценарии на тех же передовых моделях, что и западные коллеги;
- растёт ценность навыка постановки задач для агента — «как написать спецификацию, которую ИИ доведёт до конца».
Если вы хотите сравнить, как разные модели справляются с длинным кодом, в WebGPT уже доступны и линейка GPT, и Claude, и Gemini — можно прогнать одну и ту же задачу через несколько моделей и выбрать лучшую. Подробнее о выборе моделей мы писали в материале сравнение ИИ-моделей 2026.
Когда и кому это уже доступно?
Сам подход «длинных прогонов» доступен уже сейчас — это не анонс будущего, а описание текущих возможностей Codex на GPT-5.3-Codex. Однако важно различать сценарии использования.
Многочасовые автономные забеги на десятки тысяч строк — это пока скорее демонстрация потолка возможностей и инструмент для специфических задач (масштабные миграции, генерация больших объёмов кода под жёсткой спецификацией). Для повседневной разработки куда практичнее короткие и средние агентные сессии: реализовать фичу, написать тесты, отрефакторить модуль.
Кому это полезно в первую очередь:
- Командам с легаси-кодом — миграции и рефакторинги, которые раньше съедали недели;
- Стартапам — быстрый прототип с реальным покрытием тестами;
- Соло-разработчикам — возможность «нанять» исполнителя на рутину;
- Тимлидам — делегирование чётко описанных задач с проверяемым результатом.
Попробовать передовые модели OpenAI на собственных задачах можно через WebGPT — без зарубежной карты и VPN, с оплатой из России. Это удобный способ оценить, где именно агентный подход реально экономит время в вашем проекте.
Что делать прямо сейчас?
Главный навык эпохи длинных агентов — это не написание кода вручную, а постановка задачи так, чтобы ИИ довёл её до конца сам. OpenAI прямо советует разбивать амбициозную цель на проверяемые шаги. Вот практический минимум, с которого стоит начать.
- Формулируйте спецификацию, а не просьбу. Чем чётче критерий «сделано» (проходят такие-то тесты), тем длиннее и стабильнее работает агент.
- Дайте агенту способ проверять себя. Тесты, линтеры, типизация — это «руль», по которому модель сама находит и чинит ошибки.
- Начинайте с коротких прогонов. Освойте 15–30-минутные сессии, прежде чем запускать многочасовые.
- Сравнивайте модели. Прогоняйте одну задачу через GPT, Claude и Gemini — на разных типах кода лидеры меняются.
- Сохраняйте контроль на ключевых точках. Человеческий ревью важен там, где цена ошибки высока.
Как настроить длинные задачи технически — подробно расписано в руководстве OpenAI Developers по long-horizon задачам. А чтобы не настраивать зарубежную платёжку и доступ, можно начать с агрегатора. Больше практики — в нашем разборе ИИ-агенты для разработки.
Часто задаваемые вопросы
Codex действительно работает 25 часов сам по себе?
Это результат показательного стресс-теста OpenAI на модели GPT-5.3-Codex, а не типичный повседневный сценарий. В реальных задачах прогоны обычно короче. Сам по себе факт важен тем, что агент удержал фокус и самопроверку на всей дистанции, а не просто долго генерировал текст.
Чем GPT-5.3-Codex отличается от обычного ChatGPT?
ChatGPT — это чат-ассистент, который отвечает текстом. Codex на GPT-5.3-Codex — это агент: он читает кодовую базу, вносит правки, запускает тесты и сам исправляет ошибки в цикле. Он заточен под многошаговое исполнение реальных инженерных задач, а не под разовые ответы.
Можно ли пользоваться этими моделями из России?
Прямой доступ к продуктам OpenAI из РФ затруднён: нужны иностранная карта и часто обход блокировок. Альтернатива — агрегаторы вроде WebGPT (ask.gptweb.ru), где топовые модели OpenAI доступны без VPN, с русским интерфейсом и оплатой российскими способами.
Заменит ли Codex программистов?
Пока нет. Codex усиливает разработчика, забирая рутину и крупные механические задачи, но человеческий контроль остаётся критичным там, где высока цена ошибки. Растёт ценность не ручного кодинга, а умения ставить задачу и проектировать систему проверок.
С чего начать, если я хочу попробовать агентный подход?
Начните с короткой задачи с чётким критерием «сделано» — например, «напиши тесты для этого модуля, чтобы они проходили». Дайте агенту способ себя проверять (тесты, линтер) и сравните результат на нескольких моделях. Протестировать GPT, Claude и Gemini на одной задаче удобно через WebGPT.