Крылов о LLM: не просто предсказатели токенов

Профессор Владимир Крылов, известный российский эксперт в области искусственного интеллекта и научный консультант группы компаний ЛАНИТ, опубликовал на Habr статью, в которой назвал популярное определение больших языковых моделей (LLM) как «просто предсказателей следующего токена» технической безграмотностью. По мнению Крылова, такая упрощённая трактовка не отражает реальной сложности современных нейросетей — таких как GPT-4o, Claude 3.5 Sonnet и DeepSeek-R1 — и мешает специалистам и обычным пользователям правильно понимать возможности и ограничения ИИ. В этой статье разбираем суть аргументов учёного, реакцию сообщества и практические последствия для пользователей AI-инструментов в России и СНГ.

Дискуссия о природе LLM выходит далеко за рамки узкого IT-сообщества

Что именно сказал Владимир Крылов?

В авторском материале на Habr в корпоративном блоге ЛАНИТ Владимир Крылов утверждает: расхожая фраза «LLM — это просто статистический предсказатель следующего токена» прижилась в популярных объяснениях, но фундаментально искажает реальность. По мнению профессора, формулировка верна лишь на самом поверхностном уровне — это всё равно что сказать, будто человеческий мозг «просто передаёт электрические сигналы между нейронами».

Крылов подчёркивает, что внутри современных трансформеров формируются устойчивые внутренние представления (representations), которые можно интерпретировать как абстрактные понятия, схемы рассуждений и даже элементы модели мира. Эти структуры возникают эмерджентно — в результате обучения на колоссальных корпусах текстов — и не сводятся к простой статистике частот символов.

Учёный апеллирует к работам по mechanistic interpretability — направлению, в рамках которого исследователи из Anthropic, OpenAI и DeepMind находят внутри сетей конкретные группы нейронов, отвечающих за абстрактные концепты вроде «золотых ворот Сан-Франциско», «обмана пользователя» или «нарушения конфиденциальности». Если бы LLM была чистым статистическим предсказателем, такие интерпретируемые структуры в принципе не могли бы существовать.

Кто такой Владимир Крылов?

Владимир Крылов — доктор технических наук, профессор, научный консультант ЛАНИТ и один из самых публичных в России специалистов по машинному обучению и анализу данных. Он известен лекциями в МФТИ и НИУ ВШЭ, выступлениями на конференциях AI Journey, Data Fest и публикациями о практическом применении ML в крупных корпоративных проектах.

В отличие от многих популяризаторов ИИ, Крылов сочетает академическую базу с многолетним консалтингом для бизнеса — это даёт ему редкий взгляд на разрыв между тем, как LLM описывают в маркетинге, и тем, что они реально умеют. Его позиция в дискуссии о природе языковых моделей опирается одновременно на математическую теорию и практику внедрения в реальные продукты.

Почему «предсказание токенов» — это упрощение?

Формально LLM действительно генерирует текст пословно (точнее — по подсловам, токенам), выбирая каждый следующий элемент на основе вероятностного распределения. Но критическая ошибка популярного нарратива в том, что он молчаливо приравнивает механизм вывода к сути модели.

Механизм вывода — это последовательная выдача токенов на этапе inference, видимая «снаружи».
Суть модели — это многоуровневые внутренние репрезентации, формирующиеся в десятках слоёв трансформера и кодирующие сложные паттерны мира.
Способ обучения — это градиентная оптимизация на задаче предсказания следующего токена, которая порождает побочный эффект в виде структурированного знания.

Аналогия Крылова: сказать «LLM — это предсказатель токенов» — то же самое, что сказать «писатель — это просто человек, который последовательно ставит буквы на бумагу». Технически верно, но игнорирует всё, что происходит в голове писателя до момента физического написания.

По данным исследования Anthropic «Mapping the Mind of a Large Language Model» (май 2024), внутри Claude 3 Sonnet удалось идентифицировать миллионы интерпретируемых признаков — от конкретных понятий («Эйфелева башня») до абстрактных категорий («гендерная предвзятость», «уязвимости в коде»). Это эмпирическое подтверждение того, что модель оперирует не сырыми токенами, а структурированными представлениями.

Внутри трансформеров обнаруживаются интерпретируемые структуры, а не сырая статистика

Почему это важно для пользователей AI в России и СНГ?

На первый взгляд спор кажется чисто академическим — какая разница обычному пользователю ChatGPT, как именно работает модель внутри? Разница принципиальная, и для пользователей в России и СНГ она особенно ощутима по трём причинам.

Управление ожиданиями. Если думать о LLM как о «попугае-предсказателе», легко списать любую ошибку модели на «галлюцинацию» и не разбираться в причине. Понимание, что внутри есть структурированные представления, объясняет, почему одни задачи модель решает уверенно, а на других стабильно сбоит.
Выбор моделей и провайдеров. В России доступ к флагманским LLM ограничен — OpenAI и Anthropic не работают напрямую с РФ. Платформы вроде WebGPT предоставляют доступ к GPT-4o, Claude 3.5 и DeepSeek через единый интерфейс, и понимание архитектурных различий помогает осознанно выбирать модель под задачу.
Безопасное использование. Чем точнее ментальная модель работы LLM, тем меньше риск принять уверенный, но неверный ответ за факт. Это особенно критично в юридических, медицинских и финансовых сценариях, где цена ошибки высока.

Российское AI-сообщество, во многом оторванное от прямого диалога с западными Big Tech, особенно нуждается в качественной аналитической журналистике на русском языке — именно эту нишу занимают тексты Крылова и публикации в корпоративном блоге ЛАНИТ на Habr.

Какие аргументы приводит Крылов в защиту своей позиции?

Крылов выстраивает аргументацию в несколько слоёв, опираясь на современные исследования по интерпретируемости и эмерджентным способностям LLM.

Первый аргумент — эмерджентность способностей. При увеличении размера модели у неё спонтанно появляются новые навыки: рассуждение по цепочке (chain-of-thought), few-shot learning, перевод между языками без явного обучения этому переводу. Если бы LLM была «чистой статистикой», подобные качественные скачки были бы невозможны.

Второй аргумент — внутренние модели мира. Эксперименты показывают: модели, обученные на партиях игр в Othello или шахматы, формируют внутри себя представление о состоянии доски — хотя никто их этому явно не учил. Это указывает на то, что модель строит абстракции, а не запоминает поверхностные паттерны последовательностей.

«Утверждение „LLM — это просто предсказатель следующего токена" эквивалентно утверждению „автомобиль — это просто устройство, которое крутит колёса". Технически да, фактически — это игнорирование 99% сложности системы», — пишет Крылов в своей статье на Habr.

Третий аргумент — практика. Реальные продуктовые сценарии — генерация рабочего кода, многошаговые математические рассуждения, медицинская диагностика — невозможны без какой-то формы внутреннего «понимания» задачи. Чисто статистический предсказатель не смог бы стабильно решать новые задачи, не встречавшиеся в обучающей выборке в точно таком же виде.

Что говорят оппоненты и критики?

Не все согласны с Крыловым. Сторонники концепции «стохастического попугая» — взгляда, оформленного в знаменитой статье Эмили Бендер и соавторов «On the Dangers of Stochastic Parrots» (ACM FAccT 2021) — настаивают: LLM не «понимают» текст, а лишь воспроизводят статистические паттерны языка, не имея референции к реальному миру.

Это позиция значительной части академического NLP-сообщества, в том числе ряда российских исследователей. Ключевой контраргумент: эмерджентные способности — это не доказательство понимания, а следствие масштаба и качества обучающих данных. Внутренние представления есть и у простой word2vec-модели, но никто не называет её «мыслящей» сущностью.

Дискуссия осложняется тем, что само понятие «понимания» не имеет операционального определения. Где проходит граница между «продвинутой статистикой» и «настоящим пониманием» — открытый философский вопрос, который, возможно, в принципе не имеет ответа в рамках текущей научной парадигмы.

Спор о природе LLM — это во многом спор о границах самого понятия «понимание»

Как это меняет подход к работе с ChatGPT, Claude и DeepSeek?

Практическая ценность дискуссии Крылова в том, что она задаёт более точный язык для работы с моделями. Если воспринимать LLM как систему с богатыми внутренними репрезентациями, становится понятнее, почему помогают определённые приёмы промптинга.

Chain-of-thought prompting работает, потому что заставляет модель использовать внутренние «рассуждающие» структуры, а не сразу выдавать поверхностный ответ.
Few-shot learning эффективен, потому что несколько примеров активируют нужную внутреннюю репрезентацию задачи внутри модели.
Role-prompting (например, «Ты опытный юрист») работает, потому что переключает модель в специализированный контекстный режим работы.

В WebGPT через единый интерфейс доступны GPT-4o, Claude 3.5 Sonnet, DeepSeek-R1 и Gemini — это позволяет на практике проверять, какая модель лучше справляется с конкретным типом задач. Например, DeepSeek-R1 заметно сильнее в математических рассуждениях, а Claude — в работе с длинными документами и тонкой стилистикой текста.

Понимание архитектурных различий помогает не «гадать», какую модель выбрать, а делать осознанный выбор под задачу. Это и есть практический смысл аргумента Крылова: точная ментальная модель работы LLM напрямую влияет на качество результатов, которые вы получаете.

Что делать прямо сейчас?

Если вы пользуетесь AI-инструментами для работы или учёбы, статья Крылова — повод пересмотреть свои практики и обновить мышление о современных моделях.

Перестаньте говорить «нейросеть просто угадывает». Эта формулировка формирует неверные ожидания и у вас, и у коллег. Используйте более точные описания — «модель опирается на внутренние представления о предметной области».
Экспериментируйте с разными моделями под одну задачу. Через WebGPT можно за минуту прогнать один и тот же промпт через GPT-4o, Claude и DeepSeek и сравнить результаты — это лучшая практика для понимания сильных и слабых сторон каждой модели.
Изучайте основы интерпретируемости. Базовое понимание того, как работают трансформеры, позволяет писать промпты осознанно, а не методом проб и ошибок. Полезные материалы есть в нашем блоге: архитектура современных LLM и актуальные техники промптинга 2026.
Следите за работами по mechanistic interpretability. Anthropic, OpenAI и российские лаборатории (включая ЛАНИТ и AIRI) активно публикуют исследования, которые меняют представление о реальных возможностях моделей.

Сравнение моделей через единый интерфейс — практический способ понять архитектурные различия

Часто задаваемые вопросы

LLM действительно «понимают» текст или нет?

Однозначного ответа нет, потому что не существует строгого научного определения «понимания». Современные исследования по интерпретируемости показывают, что LLM формируют сложные внутренние представления и решают задачи, недоступные простой статистике частот. Но является ли это «пониманием» в человеческом смысле — открытый философский вопрос.

Где можно прочитать оригинальную статью Владимира Крылова?

Полный текст опубликован в корпоративном блоге ЛАНИТ на Habr — крупнейшей русскоязычной площадке для IT-специалистов. Это популярный технический ресурс с активным сообществом, где параллельно с основной статьёй можно прочитать дискуссию в комментариях и реакции коллег по индустрии.

Какую модель выбрать для практических задач — GPT-4o, Claude или DeepSeek?

Зависит от задачи. GPT-4o универсален и хорош в мультимодальных сценариях (текст + изображения). Claude 3.5 Sonnet превосходно работает с длинными документами и сложным кодом. DeepSeek-R1 — лидер в математических рассуждениях. Лучший подход — протестировать все три через WebGPT на своих реальных задачах.

Что такое mechanistic interpretability?

Это направление исследований, изучающее, как именно работают нейросети «изнутри» — какие конкретные группы нейронов отвечают за какие концепты и операции. Anthropic, OpenAI и DeepMind активно публикуют результаты в этой области, которые помогают понять реальные механизмы работы LLM и их фундаментальные ограничения.

Изменит ли эта дискуссия что-то для обычных пользователей AI?

Напрямую — нет, интерфейсы и возможности моделей останутся прежними. Но изменится дискурс вокруг ИИ: более точное понимание архитектуры LLM поможет принимать лучшие решения о том, где и как применять эти инструменты, и избегать как недооценки, так и переоценки их реальных возможностей.

Владимир Крылов: называть LLM предсказателями токенов — безграмотность

Что именно сказал Владимир Крылов?

Кто такой Владимир Крылов?

Почему «предсказание токенов» — это упрощение?

Почему это важно для пользователей AI в России и СНГ?

Какие аргументы приводит Крылов в защиту своей позиции?

Что говорят оппоненты и критики?

Как это меняет подход к работе с ChatGPT, Claude и DeepSeek?

Что делать прямо сейчас?

Часто задаваемые вопросы

LLM действительно «понимают» текст или нет?

Где можно прочитать оригинальную статью Владимира Крылова?

Какую модель выбрать для практических задач — GPT-4o, Claude или DeepSeek?

Что такое mechanistic interpretability?

Изменит ли эта дискуссия что-то для обычных пользователей AI?

Попробуйте WebGPT бесплатно

Читайте также

Кейс внедрения AI-ассистента в интернет-магазине: цифры, ошибки и результат

Как компании используют нейросети в поддержке клиентов: разбор 2026 года

«Гемини недоступен в вашей стране»: что делать в 2026 и при чём тут rtbr.top

NVIDIA NeMo AutoModel ускоряет дообучение ИИ-моделей в 3,5 раза

Последние статьи

AI для селлеров в 2026: 45+ промптов для карточек, отзывов и аналитики маркетплейсов

Что нужно сделать, чтобы заработал Gemini (rtbr.top): честный обзор рабочих способов в 2026 году

Автоматизация клиентской поддержки с помощью ИИ в 2026: пошаговое внедрение и расчёт ROI

AI-инструменты для руководителя проекта: пошаговый гайд 2026, как автоматизировать планы, документы и отчёты

Все категории

Короткий ответ

О чём эта статья?

Кому полезен этот материал?

Владимир Крылов: называть LLM предсказателями токенов — безграмотность

Что именно сказал Владимир Крылов?

Кто такой Владимир Крылов?

Почему «предсказание токенов» — это упрощение?

Почему это важно для пользователей AI в России и СНГ?

Какие аргументы приводит Крылов в защиту своей позиции?

Что говорят оппоненты и критики?

Как это меняет подход к работе с ChatGPT, Claude и DeepSeek?

Что делать прямо сейчас?

Часто задаваемые вопросы

LLM действительно «понимают» текст или нет?

Где можно прочитать оригинальную статью Владимира Крылова?

Какую модель выбрать для практических задач — GPT-4o, Claude или DeepSeek?

Что такое mechanistic interpretability?

Изменит ли эта дискуссия что-то для обычных пользователей AI?

Попробуйте WebGPT бесплатно

Читайте также

Кейс внедрения AI-ассистента в интернет-магазине: цифры, ошибки и результат

Как компании используют нейросети в поддержке клиентов: разбор 2026 года

«Гемини недоступен в вашей стране»: что делать в 2026 и при чём тут rtbr.top

NVIDIA NeMo AutoModel ускоряет дообучение ИИ-моделей в 3,5 раза

Последние статьи

AI для селлеров в 2026: 45+ промптов для карточек, отзывов и аналитики маркетплейсов

Что нужно сделать, чтобы заработал Gemini (rtbr.top): честный обзор рабочих способов в 2026 году

Автоматизация клиентской поддержки с помощью ИИ в 2026: пошаговое внедрение и расчёт ROI

AI-инструменты для руководителя проекта: пошаговый гайд 2026, как автоматизировать планы, документы и отчёты

Все категории