На Habr вышел подробный разбор нейронных аудиокодеков — технологии, которая сжимает звук с помощью тех же принципов, что и большие языковые модели (LLM) обрабатывают текст. Главный тезис прост: вместо того чтобы кодировать звуковую волну напрямую, нейросеть превращает звук в дискретные «токены», а затем предсказывает их по очереди — ровно так же, как ChatGPT предсказывает следующее слово. Результат впечатляет: современный кодек EnCodec от Meta держит разборчивую речь на скорости от 1.5 кбит/с — это в десятки раз компактнее привычного MP3. В этой статье разбираем, что произошло, как устроена технология и почему она важна для всех, кто работает с голосовыми ИI-инструментами.
Что произошло?
Исследователи и компании за последние два года перенесли логику языковых моделей на работу со звуком. Появилось целое семейство нейронных аудиокодеков, которые кодируют речь и музыку не как поток сэмплов, а как набор смысловых единиц — токенов. Подробный технический разбор этого подхода опубликован в материале блога RUVDS на Habr о нейронных аудиокодеках, и именно он стал поводом для этой заметки.
Ключевая идея, которую формулируют авторы, звучит так:
«Вместо того чтобы предсказывать сэмплы напрямую, нейронный аудиокодек работает в три этапа: токенизация звука, предсказание следующего токена в LLM и восстановление исходных данных».
Это смещение оказалось революционным. Классические кодеки (MP3, AAC, Opus) опираются на психоакустику — отбрасывают то, что ухо всё равно не слышит. Нейросетевые кодеки идут дальше: они «понимают» структуру речи и музыки и потому могут передать тот же смысл несравнимо меньшим числом бит.
Кто задаёт тон
За технологией стоят не безымянные стартапы, а ведущие AI-лаборатории:
- Mimi (Kyutai, 2024) — автоэнкодер с остаточной векторной квантизацией (RVQ), который кодирует звук на частоте всего 12.5 Гц, около 24 токенов в секунду на каждый слой квантизации.
- EnCodec (Meta) и SoundStream (Google) — фундамент, на котором выросло всё направление.
- CSM (Sesame, 2025), Qwen3-Omni (Alibaba, 2025) и MiMo-Audio (Xiaomi, 2025) — свежие реализации, где аудиокодек встроен прямо в мультимодальную модель.
Для пользователей в России и СНГ это не абстрактная новость: именно на таких кодеках строятся голосовые ассистенты, синтез речи и распознавание, которые уже сегодня доступны через сервисы вроде WebGPT (ask.gptweb.ru). Чем эффективнее сжатие — тем дешевле и быстрее работает голосовой ИИ при наших, зачастую нестабильных, мобильных каналах.
Как нейросети сжимают звук лучше классических кодеков?
Чтобы понять прорыв, полезно вспомнить, как работает обычное сжатие. MP3 кодирует музыку на 128–320 кбит/с, голосовой Opus справляется с речью от 16–24 кбит/с. Нейросетевой кодек EnCodec из репозитория Meta на GitHub поддерживает потоки 1.5, 3, 6, 12 и 24 кбит/с — то есть разборчивую речь можно передать на 1.5 кбит/с, в десятки раз компактнее MP3.
Три стадии нейрокодека
- Токенизация. Энкодер (свёрточная нейросеть) разбивает звук на короткие фрагменты и присваивает каждому код из обучённого словаря — это и есть аудиотокены.
- Предсказание. Языковая модель работает с этими токенами так же, как с текстом: предсказывает следующий, учитывая контекст. Здесь и кроется сжатие — предсказуемое не нужно передавать.
- Восстановление. Декодер собирает из токенов звуковую волну обратно, дорисовывая детали по выученным закономерностям.
Акустика плюс смысл
Отдельная находка Mimi — разделение токенов на два типа. Акустические токены отвечают за тембр, интонацию и качество звучания, а семантические — за лингвистическое содержание, то есть собственно слова. Такое разделение позволяет одной и той же модели и распознавать речь, и синтезировать её, и сжимать — без отдельных пайплайнов под каждую задачу.
Насколько мощным может быть нейросетевое сжатие в принципе, показывает аналогия с текстом. По данным разбора на Habr, нейросетевой компрессор NNCP достигает степени сжатия 9.32:1 на корпусе Wikipedia против 5.07:1 у классического архиватора xz. Тот же принцип «предсказуемое не передаём» переносится и на звук.
Почему это важно для пользователей AI в России и СНГ?
На первый взгляд аудиокодеки — тема для инженеров. Но эффект чувствуют конечные пользователи, и в нашем регионе особенно.
- Дешевле голосовой ИИ. Чем меньше байт уходит на секунду звука, тем ниже расходы на трафик и серверы — а значит, доступнее голосовые функции в массовых сервисах.
- Стабильнее на слабом интернете. Поток в 1.5–6 кбит/с спокойно проходит даже там, где видеозвонок рассыпается. Для регионов с неровным мобильным покрытием это критично.
- Качественнее синтез речи. Те же кодеки лежат в основе реалистичных голосовых ассистентов — звук становится живее и без «роботизированного» призвука.
Многие из этих возможностей уже встроены в модели, которые россияне и пользователи СНГ запускают через WebGPT: голосовой ввод, озвучка ответов и мультимодальные сценарии работают именно поверх такой токенизации звука.
Как это повлияет на работу с ИИ-инструментами?
Главное следствие — стирание границы между «текстовыми» и «звуковыми» моделями. Когда звук становится последовательностью токенов, языковая модель может обрабатывать его теми же механизмами, что и текст. Это открывает практичные сценарии уже сегодня.
- Сквозной голосовой диалог. Модель слышит вопрос, понимает его и отвечает голосом без промежуточного перевода «речь → текст → речь» — задержка падает, интонация сохраняется.
- Дешёвая расшифровка длинных записей. Совещания, подкасты, лекции токенизируются компактно, и их можно дёшево хранить и пересматривать.
- Мультимедийные ассистенты. Модели вроде Qwen3-Omni принимают на вход и текст, и звук, и изображение одновременно — основа для ассистентов, которые работают с любым контентом.
Технологию нейрокодека SoundStream, описанную в блоге Google Research, и проект голосовых моделей лаборатории Kyutai стоит держать в закладках — именно оттуда приходят функции, которые через несколько месяцев оказываются в массовых чат-ботах. Подробнее об устройстве мультимодальных моделей мы писали в материале о мультимодальном ИИ.
Когда это станет доступно обычным пользователям?
Во многом — уже доступно. EnCodec и SoundStream опубликованы в открытом доступе, а Mimi работает в составе голосовой модели Moshi от Kyutai. Свежие мультимодальные модели 2025 года (Qwen3-Omni, MiMo-Audio) выходят с открытыми весами, так что голосовые функции на нейрокодеках перетекают в продукты буквально на глазах.
Для пользователя это означает, что не нужно ничего «ждать»: достаточно работать с актуальными моделями. В WebGPT уже доступны мультимодальные модели, которые понимают и текст, и голос — попробовать голосовые сценарии можно прямо сейчас на ask.gptweb.ru, не настраивая ничего вручную.
Что делать прямо сейчас?
Если вы используете ИИ для работы или учёбы, вот практические шаги, чтобы извлечь пользу из новой волны звуковых технологий.
- Переходите на голосовой ввод там, где печатать долго: диктовка длинных запросов часто быстрее и точнее благодаря качественному распознаванию.
- Используйте озвучку ответов для длинных текстов — современные голоса звучат естественно именно за счёт нейрокодеков.
- Расшифровывайте встречи и лекции через ИИ: сжатие и распознавание стали дёшевы, а конспект можно получить за минуты.
- Тестируйте мультимодальные модели — загружайте аудио и текст вместе, чтобы решать задачи, которые раньше требовали нескольких инструментов.
Если хочется глубже понять, чем отличаются современные ИИ-модели и какие из них лучше для голоса, загляните в наш разбор сравнения актуальных ИИ-моделей.
Часто задаваемые вопросы
Чем нейронный аудиокодек отличается от MP3?
MP3 отбрасывает звуки, которые ухо плохо различает, но кодирует волну напрямую. Нейрокодек превращает звук в смысловые токены и предсказывает их языковой моделью, поэтому достигает того же качества на скорости в десятки раз ниже — например, разборчивая речь у EnCodec идёт от 1.5 кбит/с.
Можно ли уже пользоваться этой технологией?
Да. EnCodec и SoundStream выложены в открытый доступ, а Mimi работает в голосовой модели Moshi. Голосовые и мультимодальные функции на их основе встроены в современные модели, которые доступны в том числе через WebGPT на ask.gptweb.ru.
Теряется ли качество звука при таком сжатии?
На низких битрейтах нейрокодеки звучат заметно чище классических: они восстанавливают детали по выученным закономерностям речи и музыки. Для голоса разница почти неощутима, для сложной музыки на минимальных скоростях возможны небольшие искажения.
Зачем разделять акустические и семантические токены?
Акустические токены отвечают за тембр и интонацию, семантические — за слова. Разделение позволяет одной модели и распознавать речь, и синтезировать, и сжимать её без отдельных систем под каждую задачу.
Как это связано с большими языковыми моделями?
Напрямую: звук кодируется как последовательность токенов, и языковая модель обрабатывает их так же, как текст — предсказывает следующий токен. Поэтому голос и текст всё чаще работают внутри одной мультимодальной модели.