WebGPTWebGPT

Короткий ответ

Профессор Владимир Крылов раскритиковал популярное определение LLM как предсказателей токенов. Разбираем дискуссию о природе ИИ и её значение.

О чём эта статья?

Статья объясняет тему Владимир Крылов: называть LLM предсказателями токенов — безграмотность и помогает быстро понять, стоит ли использовать этот сценарий, сервис или подход на практике.

Кому полезен этот материал?

Пользователям WebGPT, маркетологам, авторам и специалистам, которые выбирают инструменты AI и хотят сравнить решения по одной задаче.

Новости

Владимир Крылов: называть LLM предсказателями токенов — безграмотность

19 мая 2026 г.9 мин чтения

Профессор Владимир Крылов раскритиковал популярное определение LLM как предсказателей токенов. Разбираем дискуссию о природе ИИ и её значение.

Профессор Владимир Крылов, известный российский эксперт в области искусственного интеллекта и научный консультант группы компаний ЛАНИТ, опубликовал на Habr статью, в которой назвал популярное определение больших языковых моделей (LLM) как «просто предсказателей следующего токена» технической безграмотностью. По мнению Крылова, такая упрощённая трактовка не отражает реальной сложности современных нейросетей — таких как GPT-4o, Claude 3.5 Sonnet и DeepSeek-R1 — и мешает специалистам и обычным пользователям правильно понимать возможности и ограничения ИИ. В этой статье разбираем суть аргументов учёного, реакцию сообщества и практические последствия для пользователей AI-инструментов в России и СНГ.

Дискуссия о природе LLM выходит далеко за рамки узкого IT-сообщества

Что именно сказал Владимир Крылов?

В авторском материале на Habr в корпоративном блоге ЛАНИТ Владимир Крылов утверждает: расхожая фраза «LLM — это просто статистический предсказатель следующего токена» прижилась в популярных объяснениях, но фундаментально искажает реальность. По мнению профессора, формулировка верна лишь на самом поверхностном уровне — это всё равно что сказать, будто человеческий мозг «просто передаёт электрические сигналы между нейронами».

Крылов подчёркивает, что внутри современных трансформеров формируются устойчивые внутренние представления (representations), которые можно интерпретировать как абстрактные понятия, схемы рассуждений и даже элементы модели мира. Эти структуры возникают эмерджентно — в результате обучения на колоссальных корпусах текстов — и не сводятся к простой статистике частот символов.

Учёный апеллирует к работам по mechanistic interpretability — направлению, в рамках которого исследователи из Anthropic, OpenAI и DeepMind находят внутри сетей конкретные группы нейронов, отвечающих за абстрактные концепты вроде «золотых ворот Сан-Франциско», «обмана пользователя» или «нарушения конфиденциальности». Если бы LLM была чистым статистическим предсказателем, такие интерпретируемые структуры в принципе не могли бы существовать.

Кто такой Владимир Крылов?

Владимир Крылов — доктор технических наук, профессор, научный консультант ЛАНИТ и один из самых публичных в России специалистов по машинному обучению и анализу данных. Он известен лекциями в МФТИ и НИУ ВШЭ, выступлениями на конференциях AI Journey, Data Fest и публикациями о практическом применении ML в крупных корпоративных проектах.

В отличие от многих популяризаторов ИИ, Крылов сочетает академическую базу с многолетним консалтингом для бизнеса — это даёт ему редкий взгляд на разрыв между тем, как LLM описывают в маркетинге, и тем, что они реально умеют. Его позиция в дискуссии о природе языковых моделей опирается одновременно на математическую теорию и практику внедрения в реальные продукты.

Почему «предсказание токенов» — это упрощение?

Формально LLM действительно генерирует текст пословно (точнее — по подсловам, токенам), выбирая каждый следующий элемент на основе вероятностного распределения. Но критическая ошибка популярного нарратива в том, что он молчаливо приравнивает механизм вывода к сути модели.

  • Механизм вывода — это последовательная выдача токенов на этапе inference, видимая «снаружи».
  • Суть модели — это многоуровневые внутренние репрезентации, формирующиеся в десятках слоёв трансформера и кодирующие сложные паттерны мира.
  • Способ обучения — это градиентная оптимизация на задаче предсказания следующего токена, которая порождает побочный эффект в виде структурированного знания.

Аналогия Крылова: сказать «LLM — это предсказатель токенов» — то же самое, что сказать «писатель — это просто человек, который последовательно ставит буквы на бумагу». Технически верно, но игнорирует всё, что происходит в голове писателя до момента физического написания.

По данным исследования Anthropic «Mapping the Mind of a Large Language Model» (май 2024), внутри Claude 3 Sonnet удалось идентифицировать миллионы интерпретируемых признаков — от конкретных понятий («Эйфелева башня») до абстрактных категорий («гендерная предвзятость», «уязвимости в коде»). Это эмпирическое подтверждение того, что модель оперирует не сырыми токенами, а структурированными представлениями.

Внутри трансформеров обнаруживаются интерпретируемые структуры, а не сырая статистика

Почему это важно для пользователей AI в России и СНГ?

На первый взгляд спор кажется чисто академическим — какая разница обычному пользователю ChatGPT, как именно работает модель внутри? Разница принципиальная, и для пользователей в России и СНГ она особенно ощутима по трём причинам.

  1. Управление ожиданиями. Если думать о LLM как о «попугае-предсказателе», легко списать любую ошибку модели на «галлюцинацию» и не разбираться в причине. Понимание, что внутри есть структурированные представления, объясняет, почему одни задачи модель решает уверенно, а на других стабильно сбоит.
  2. Выбор моделей и провайдеров. В России доступ к флагманским LLM ограничен — OpenAI и Anthropic не работают напрямую с РФ. Платформы вроде WebGPT предоставляют доступ к GPT-4o, Claude 3.5 и DeepSeek через единый интерфейс, и понимание архитектурных различий помогает осознанно выбирать модель под задачу.
  3. Безопасное использование. Чем точнее ментальная модель работы LLM, тем меньше риск принять уверенный, но неверный ответ за факт. Это особенно критично в юридических, медицинских и финансовых сценариях, где цена ошибки высока.

Российское AI-сообщество, во многом оторванное от прямого диалога с западными Big Tech, особенно нуждается в качественной аналитической журналистике на русском языке — именно эту нишу занимают тексты Крылова и публикации в корпоративном блоге ЛАНИТ на Habr.

Какие аргументы приводит Крылов в защиту своей позиции?

Крылов выстраивает аргументацию в несколько слоёв, опираясь на современные исследования по интерпретируемости и эмерджентным способностям LLM.

Первый аргумент — эмерджентность способностей. При увеличении размера модели у неё спонтанно появляются новые навыки: рассуждение по цепочке (chain-of-thought), few-shot learning, перевод между языками без явного обучения этому переводу. Если бы LLM была «чистой статистикой», подобные качественные скачки были бы невозможны.

Второй аргумент — внутренние модели мира. Эксперименты показывают: модели, обученные на партиях игр в Othello или шахматы, формируют внутри себя представление о состоянии доски — хотя никто их этому явно не учил. Это указывает на то, что модель строит абстракции, а не запоминает поверхностные паттерны последовательностей.

«Утверждение „LLM — это просто предсказатель следующего токена" эквивалентно утверждению „автомобиль — это просто устройство, которое крутит колёса". Технически да, фактически — это игнорирование 99% сложности системы», — пишет Крылов в своей статье на Habr.

Третий аргумент — практика. Реальные продуктовые сценарии — генерация рабочего кода, многошаговые математические рассуждения, медицинская диагностика — невозможны без какой-то формы внутреннего «понимания» задачи. Чисто статистический предсказатель не смог бы стабильно решать новые задачи, не встречавшиеся в обучающей выборке в точно таком же виде.

Что говорят оппоненты и критики?

Не все согласны с Крыловым. Сторонники концепции «стохастического попугая» — взгляда, оформленного в знаменитой статье Эмили Бендер и соавторов «On the Dangers of Stochastic Parrots» (ACM FAccT 2021) — настаивают: LLM не «понимают» текст, а лишь воспроизводят статистические паттерны языка, не имея референции к реальному миру.

Это позиция значительной части академического NLP-сообщества, в том числе ряда российских исследователей. Ключевой контраргумент: эмерджентные способности — это не доказательство понимания, а следствие масштаба и качества обучающих данных. Внутренние представления есть и у простой word2vec-модели, но никто не называет её «мыслящей» сущностью.

Дискуссия осложняется тем, что само понятие «понимания» не имеет операционального определения. Где проходит граница между «продвинутой статистикой» и «настоящим пониманием» — открытый философский вопрос, который, возможно, в принципе не имеет ответа в рамках текущей научной парадигмы.

Спор о природе LLM — это во многом спор о границах самого понятия «понимание»

Как это меняет подход к работе с ChatGPT, Claude и DeepSeek?

Практическая ценность дискуссии Крылова в том, что она задаёт более точный язык для работы с моделями. Если воспринимать LLM как систему с богатыми внутренними репрезентациями, становится понятнее, почему помогают определённые приёмы промптинга.

  • Chain-of-thought prompting работает, потому что заставляет модель использовать внутренние «рассуждающие» структуры, а не сразу выдавать поверхностный ответ.
  • Few-shot learning эффективен, потому что несколько примеров активируют нужную внутреннюю репрезентацию задачи внутри модели.
  • Role-prompting (например, «Ты опытный юрист») работает, потому что переключает модель в специализированный контекстный режим работы.

В WebGPT через единый интерфейс доступны GPT-4o, Claude 3.5 Sonnet, DeepSeek-R1 и Gemini — это позволяет на практике проверять, какая модель лучше справляется с конкретным типом задач. Например, DeepSeek-R1 заметно сильнее в математических рассуждениях, а Claude — в работе с длинными документами и тонкой стилистикой текста.

Понимание архитектурных различий помогает не «гадать», какую модель выбрать, а делать осознанный выбор под задачу. Это и есть практический смысл аргумента Крылова: точная ментальная модель работы LLM напрямую влияет на качество результатов, которые вы получаете.

Что делать прямо сейчас?

Если вы пользуетесь AI-инструментами для работы или учёбы, статья Крылова — повод пересмотреть свои практики и обновить мышление о современных моделях.

  1. Перестаньте говорить «нейросеть просто угадывает». Эта формулировка формирует неверные ожидания и у вас, и у коллег. Используйте более точные описания — «модель опирается на внутренние представления о предметной области».
  2. Экспериментируйте с разными моделями под одну задачу. Через WebGPT можно за минуту прогнать один и тот же промпт через GPT-4o, Claude и DeepSeek и сравнить результаты — это лучшая практика для понимания сильных и слабых сторон каждой модели.
  3. Изучайте основы интерпретируемости. Базовое понимание того, как работают трансформеры, позволяет писать промпты осознанно, а не методом проб и ошибок. Полезные материалы есть в нашем блоге: архитектура современных LLM и актуальные техники промптинга 2026.
  4. Следите за работами по mechanistic interpretability. Anthropic, OpenAI и российские лаборатории (включая ЛАНИТ и AIRI) активно публикуют исследования, которые меняют представление о реальных возможностях моделей.
Сравнение моделей через единый интерфейс — практический способ понять архитектурные различия

Часто задаваемые вопросы

LLM действительно «понимают» текст или нет?

Однозначного ответа нет, потому что не существует строгого научного определения «понимания». Современные исследования по интерпретируемости показывают, что LLM формируют сложные внутренние представления и решают задачи, недоступные простой статистике частот. Но является ли это «пониманием» в человеческом смысле — открытый философский вопрос.

Где можно прочитать оригинальную статью Владимира Крылова?

Полный текст опубликован в корпоративном блоге ЛАНИТ на Habr — крупнейшей русскоязычной площадке для IT-специалистов. Это популярный технический ресурс с активным сообществом, где параллельно с основной статьёй можно прочитать дискуссию в комментариях и реакции коллег по индустрии.

Какую модель выбрать для практических задач — GPT-4o, Claude или DeepSeek?

Зависит от задачи. GPT-4o универсален и хорош в мультимодальных сценариях (текст + изображения). Claude 3.5 Sonnet превосходно работает с длинными документами и сложным кодом. DeepSeek-R1 — лидер в математических рассуждениях. Лучший подход — протестировать все три через WebGPT на своих реальных задачах.

Что такое mechanistic interpretability?

Это направление исследований, изучающее, как именно работают нейросети «изнутри» — какие конкретные группы нейронов отвечают за какие концепты и операции. Anthropic, OpenAI и DeepMind активно публикуют результаты в этой области, которые помогают понять реальные механизмы работы LLM и их фундаментальные ограничения.

Изменит ли эта дискуссия что-то для обычных пользователей AI?

Напрямую — нет, интерфейсы и возможности моделей останутся прежними. Но изменится дискурс вокруг ИИ: более точное понимание архитектуры LLM поможет принимать лучшие решения о том, где и как применять эти инструменты, и избегать как недооценки, так и переоценки их реальных возможностей.

Попробуйте WebGPT бесплатно

Более 100 нейросетей в одном окне — ChatGPT, Claude, Gemini и другие. Без VPN и зарубежных карт.

Промокод:

100 бонусных токенов на 30 дн.

Начать бесплатно

Читайте также

Новости
Новости20 мая 2026 г.

OlmoEarth v1.1: AllenAI выпустил эффективные модели для анализа Земли

AllenAI представил OlmoEarth v1.1 — обновлённое open-source семейство моделей для анализа спутниковых снимков с упором на эффективность. Разбираем, что изменилось и как это применимо в России и СНГ.

9 мин чтения
Новости
Новости19 мая 2026 г.

OpenAI и Dell принесут Codex в корпоративные ЦОД

OpenAI и Dell заключили партнёрство по поставке AI-ассистента Codex для гибридных и on-premise корпоративных сред. Что это значит для разработки ПО и пользователей в России и СНГ.

10 мин чтения

Последние статьи

Для учёбы
Для учёбы20 мая 2026 г.

Дядя Ваня ВПН скачать на ПК в 2026: учебный гид для студентов и школьников

Подробный учебный разбор: как безопасно скачать Дядя Ваня ВПН на ПК с Windows, чем отличаются официальный клиент, торрент-сборки и APK-файлы, и какие альтернативы выбрать для учёбы.

18 мин чтения
Для бизнеса
Для бизнеса20 мая 2026 г.

Radmin VPN для бизнеса в 2026: настройка сети, подключение и работа без сбоев

Подробный разбор Radmin VPN для малого бизнеса: скачивание на ПК, создание виртуальной сети, исправление бесконечного подключения и сценарии для распределённой команды.

15 мин чтения
Гайды
Гайды20 мая 2026 г.

Скачать Jump Jump VPN в 2026 году: пошаговый гайд для Android, ПК и iPhone с APK и последней версией

Полный гайд по скачиванию и установке Jump Jump VPN в 2026 году — APK для Android, эмулятор и V2RayN для ПК, Streisand для iPhone, разбор бесплатной версии, проверка безопасности APK и альтернативы.

15 мин чтения
Кейсы
Кейсы20 мая 2026 г.

ВПН Дядя Ваня скачать: 10 реальных кейсов на ПК, Android и iPhone в 2026 году

Разбираем 10 реальных кейсов скачивания ВПН Дядя Ваня в 2026 году: установка на Windows, Android и iPhone, замеры скорости, типичные ошибки и безопасные альтернативы для доступа к нейросетям.

14 мин чтения