Стартап Subquadratic из Майами вышел из режима «стелс» и заявил, что нашёл способ обойти одно из главных узких мест больших языковых моделей — квадратичный рост вычислений при обработке длинного текста. Его модель SubQ использует разрежённое внимание (sparse attention) вместо классического «плотного» и, по словам компании, работает в 56 раз быстрее популярного метода FlashAttention, держит контекст до 12 миллионов токенов и стоит в разы дешевле конкурентов. Если заявка подтвердится, это удешевит и ускорит ИИ-инструменты, которыми ежедневно пользуются миллионы людей, в том числе в России и СНГ. В этой статье разбираем, что именно произошло, почему вокруг новости столько скепсиса и что это меняет на практике.
Что произошло?
19 июня 2026 года издание MIT Technology Review рассказало о выходе стартапа Subquadratic из скрытного режима. Компания утверждает, что решила вычислительную проблему, которая ограничивала развитие языковых моделей около десяти лет.
Речь о так называемом «плотном внимании» (dense attention) — базовом механизме, на котором построены ChatGPT, Claude, Gemini, DeepSeek и почти все современные нейросети. Subquadratic предлагает альтернативу: модель SubQ обрабатывает не все связи между словами подряд, а динамически выбирает только те, что действительно важны.
Главные цифры, которые приводит компания:
- в 56 раз быстрее FlashAttention в тестах на скорость;
- 89,7% на конкурентных бенчмарках по программированию;
- $8 против $2600 — стоимость одного теста по сравнению с конкурирующими моделями;
- 12 миллионов токенов контекстного окна вместо привычного 1 миллиона;
- 98% точности на задачах извлечения информации из длинного текста.
«Мы надеемся, что запускаем новую эру эффективности», — заявил генеральный директор Subquadratic Джастин Дэнгел.
О каком «узком месте» вообще речь?
Чтобы понять масштаб заявки, нужно объяснить суть проблемы простыми словами. Когда языковая модель читает текст, она сопоставляет каждое слово (точнее, токен) с каждым другим, чтобы понять связи и контекст. Это и есть механизм внимания.
Проблема в математике: если удвоить длину текста, объём вычислений вырастает примерно вчетверо. Этот квадратичный рост и называют «бутылочным горлышком» — он делает обработку длинных документов медленной и дорогой, а иногда и вовсе невозможной.
Именно поэтому у большинства моделей ограничен контекст, а обработка больших файлов стоит заметных денег. Подходов к решению было несколько:
- Оптимизация «в лоб» — например, FlashAttention, который ускоряет те же вычисления, не меняя саму суть.
- Разрежённое внимание — отказ от просчёта всех связей в пользу самых значимых. Этот путь и выбрала Subquadratic.
- Альтернативные архитектуры — вроде моделей пространства состояний (Mamba и аналоги), которые в принципе уходят от классического внимания.
SubQ относится ко второй категории, но компания утверждает, что довела идею до уровня, при котором качество не страдает, а скорость и цена резко улучшаются. По данным MIT Technology Review, заявленный прирост скорости в 56 раз — это сравнение именно с FlashAttention, текущим отраслевым стандартом эффективности.
Почему это важно для пользователей в России и СНГ?
Для русскоязычной аудитории история имеет особый практический смысл. Доступ к топовым моделям здесь упирается в две вещи: цену и инфраструктуру. Прямая оплата зарубежных ИИ-сервисов из России затруднена, а серверы и API часто работают с ограничениями.
Если разрежённое внимание действительно снижает стоимость работы модели в сотни раз — с $2600 до $8 за тест, как заявляет Subquadratic, — это в перспективе делает мощный ИИ доступнее именно там, где каждая копейка на счету.
Что это даёт на практике пользователям из России и СНГ:
- дешевле обработка длинных документов — договоров, отчётов, кода, целых книг;
- быстрее ответы при работе с большим контекстом;
- больше шансов, что продвинутые функции появятся в доступных агрегаторах, а не только в дорогих корпоративных тарифах.
Уже сейчас протестировать топовые модели вроде GPT, Claude и Gemini без зарубежной карты можно через агрегатор WebGPT (ask.gptweb.ru) — он даёт единый доступ к разным нейросетям с оплатой в рублях. Когда подобные эффективные архитектуры дойдут до продакшена, именно такие платформы первыми получат от них выгоду в виде более низких цен.
Как это может повлиять на пользователей AI-инструментов?
Главное обещание Subquadratic — контекстное окно в 12 миллионов токенов. Для сравнения: у большинства флагманских моделей сегодня это около 1 миллиона, а у многих доступных версий — гораздо меньше.
12 миллионов токенов — это примерно несколько тысяч страниц текста, которые модель удерживает «в голове» одновременно. Что это меняет для обычного пользователя:
- Анализ целых проектов. Можно загрузить весь репозиторий кода или объёмную документацию, а не куски по частям.
- Работа с длинными документами. Юридические договоры, научные статьи, годовые отчёты — без потери деталей в начале текста.
- Меньше «забывчивости». В долгих диалогах модель реже теряет ранее сказанное.
Заявленные 98% точности при извлечении информации из длинного контекста — это ответ на известную болезнь больших моделей, которую называют «потерянным в середине» (lost in the middle): когда нейросеть хорошо помнит начало и конец текста, но проваливает середину. Если SubQ действительно держит такую точность на 12 миллионах токенов, это серьёзный шаг вперёд.
Параллельно идут смежные исследования в области эффективности — мы недавно разбирали их в материале об экономичных способах дообучения моделей. Тренд очевиден: индустрия ищет не только более «умные», но и более дешёвые в эксплуатации ИИ.
Почему вокруг новости столько скепсиса?
Здесь важно сохранять трезвую голову. Громкие заявления стартапов, выходящих из стелс-режима, — частый жанр в ИИ-индустрии, и далеко не все из них выдерживают независимую проверку.
Скепсис уже прозвучал. Независимый исследователь Уилл Депью отметил, что «публичных доказательств пока недостаточно, чтобы оправдать» заявления Subquadratic о решении проблемы внимания.
Есть и конкретные вопросы к методологии:
- Ограниченный доступ. Внешние специалисты пока не могут свободно протестировать модель и перепроверить цифры.
- Заимствованные веса. По данным MIT Technology Review, SubQ переиспользует веса китайской модели Qwen, что ставит вопрос о том, какая часть результата — собственная инновация, а какая унаследована.
- Выбор бенчмарков. Компания сама определяет, на каких тестах показывать результаты, а это всегда повод для дополнительной проверки.
Ключевая оговорка: пока речь идёт о заявлениях компании, а не о независимо подтверждённом результате. История ИИ знает примеры, когда впечатляющие цифры на старте не воспроизводились в реальных условиях.
Это не значит, что прорыва нет. Это значит, что окончательный вердикт вынесет независимое тестирование, а не пресс-релиз.
Когда это станет доступно?
Конкретных сроков массового запуска Subquadratic пока не называет. Сейчас компания только вышла из режима скрытности и привлекает внимание сообщества, а доступ к модели ограничен.
Реалистичный сценарий выглядит так:
- Ближайшие месяцы — независимые исследователи получают доступ и проверяют заявленные цифры.
- Среднесрочно — если результаты подтвердятся, технологию начнут лицензировать или интегрировать крупные игроки.
- Долгосрочно — идеи разрежённого внимания просачиваются в массовые модели и снижают цены для конечных пользователей.
Важно понимать: даже неподтверждённые заявки часто двигают индустрию вперёд, заставляя конкурентов ускоряться. Так что выгоду от давления на «бутылочное горлышко» пользователи могут почувствовать раньше, чем именно SubQ дойдёт до публичного релиза.
Что делать прямо сейчас?
Ждать у моря погоды не нужно — практическая ценность новости в том, чтобы понимать тренд и пользоваться тем, что уже работает.
- Следите за независимыми проверками. Не принимайте цифры стартапа на веру до подтверждения сторонними тестами.
- Тестируйте длинный контекст уже сейчас. Современные модели в WebGPT (ask.gptweb.ru) умеют работать с объёмными документами — через WebGPT можно загрузить большой файл и проверить, насколько хорошо нейросеть удерживает детали.
- Сравнивайте модели под задачу. Для кода, длинных текстов и анализа данных подходят разные нейросети — агрегатор позволяет переключаться между ними без отдельных подписок.
- Думайте о стоимости. Если ваши задачи упираются в цену токенов, новые эффективные архитектуры — это прямой повод следить за рынком.
Подробнее о том, как выбирать модель под конкретную задачу, мы писали в разборе сравнения нейросетей.
Часто задаваемые вопросы
Что такое разрежённое внимание простыми словами?
Это способ обработки текста, при котором модель не сопоставляет каждое слово со всеми остальными, а выбирает только важные связи. За счёт этого вычислений становится меньше, а работа — быстрее и дешевле. Subquadratic утверждает, что при этом качество ответов почти не страдает.
Можно ли уже пользоваться моделью SubQ?
Свободного публичного доступа пока нет. Компания только вышла из стелс-режима, а внешние исследователи лишь начинают проверять её заявления. Когда и в каком виде модель станет общедоступной, неизвестно.
Стоит ли верить заявленным цифрам Subquadratic?
К ним стоит относиться осторожно. Независимый исследователь Уилл Депью отметил, что публичных доказательств пока недостаточно. К тому же модель переиспользует веса китайской Qwen, поэтому неясно, какая часть результата — собственная разработка. Дождитесь независимых тестов.
Как это повлияет на цену ИИ для пользователей в России?
Если эффективные архитектуры вроде разрежённого внимания станут стандартом, обработка запросов подешевеет, и это снизит цены в доступных агрегаторах. Уже сейчас протестировать топовые модели с оплатой в рублях можно через WebGPT (ask.gptweb.ru).
Зачем нужен контекст на 12 миллионов токенов?
Большое контекстное окно позволяет модели одновременно «держать в голове» тысячи страниц — целые проекты кода, длинные договоры или книги. Это снижает риск, что нейросеть забудет важные детали из начала текста при работе с объёмными материалами.