Mellum2 от JetBrains: 12B MoE-модель для кода

JetBrains выпустила Mellum2 — открытую языковую модель на 12 миллиардов параметров с архитектурой Mixture-of-Experts (MoE), специально натренированную для работы с исходным кодом. Это означает, что у разработчиков появился ещё один мощный инструмент для автодополнения, рефакторинга и генерации кода — причём с открытыми весами, который можно изучать, тонко настраивать и запускать в собственной инфраструктуре. В этой статье разбираем, что именно анонсировала JetBrains, чем MoE-подход отличается от классических плотных моделей, как Mellum2 соотносится с первой версией линейки и какие практические последствия это имеет для AI-разработчиков в России и СНГ. Также покажем, как протестировать передовые модели для кода через WebGPT уже сегодня — без VPN и без зарубежной карты.

Mellum2 от JetBrains — открытая MoE-модель для разработчиков, продолжение линейки специализированных code-LLM

Что произошло?

Команда JetBrains AI опубликовала официальный анонс Mellum2 в блоге HuggingFace. Согласно описанию, Mellum2 — это вторая итерация семейства Mellum, языковых моделей, которые JetBrains разрабатывает специально для кода: подсказок в IDE, генерации функций, объяснения чужих фрагментов и поиска по большим репозиториям. В отличие от первой версии Mellum, которая была плотной (dense) моделью на 4 миллиарда параметров, новая Mellum2 построена на архитектуре Mixture-of-Experts с общим бюджетом 12B параметров.

Ключевые тезисы анонса:

12B параметров суммарно, но во время инференса активируется только часть «экспертов» — типичный для MoE приём, который удешевляет вычисления без потери качества.
Открытые веса опубликованы на HuggingFace под лицензией, допускающей коммерческое использование с ограничениями (детали в карточке модели).
Focus on code: датасет натренирован на репозиториях с пермиссивными лицензиями, документации, PR-обсуждениях и issue tracker'ах.
Multi-language: модель умеет работать минимум с двумя десятками языков программирования — от Python и Kotlin до Rust, Go и TypeScript.
Интеграция в JetBrains AI Assistant уже разворачивается, постепенно заменяя/дополняя предыдущие движки автодополнения.

Если первый Mellum воспринимался как нишевый эксперимент компании, то Mellum2 — это уже заявка на серьёзную позицию в нише code-LLM, где доминируют Codestral от Mistral, DeepSeek Coder, Qwen Coder и проприетарные модели типа GitHub Copilot и Cursor.

Почему это важно?

В 2025 году рынок специализированных моделей для кода окончательно отделился от рынка моделей общего назначения. Производительность на бенчмарках вроде HumanEval, SWE-bench Verified и LiveCodeBench перестала быть «бонусом» — это превратилось в отдельный продуктовый сегмент со своими лидерами. Появление Mellum2 в этом контексте важно сразу по нескольким причинам.

Во-первых, JetBrains — это не стартап и не исследовательская лаборатория. Это компания, которая 25 лет делает IDE и точно знает, где именно автодополнение должно быть быстрым, а где — глубоким. Команда имеет уникальный набор данных: телеметрию из IntelliJ IDEA, PyCharm, WebStorm и десятков других продуктов. По данным JetBrains, их IDE используют более 15 миллионов разработчиков, что даёт компании беспрецедентный доступ к реальным паттернам работы с кодом.

Во-вторых, MoE-архитектура снижает порог входа для self-hosted инференса. Если плотную модель на 12B пришлось бы крутить на GPU с 24+ ГБ VRAM, то MoE с эффективными ~3-4B активных параметров может запускаться на потребительских картах вроде RTX 4090, RTX 5090 или даже ноутбучных RTX 4070. Для российских команд, у которых нет доступа к облачным GPU класса H100, это критически важно.

Геополитический контекст

Для пользователей из России и СНГ публикация открытых весов имеет дополнительное значение. После 2022 года доступ к проприетарным API вроде GitHub Copilot, Cursor Pro и Claude Code стал значительно сложнее: оплата требует зарубежной карты, а сами сервисы могут блокировать аккаунты по геолокации. Открытая модель с весами на HuggingFace — это инструмент, который никто не может «отключить»: её можно скачать, развернуть локально и использовать в продакшене без зависимости от внешних провайдеров.

Открытые веса Mellum2 позволяют разворачивать модель локально — без зависимости от зарубежных API и платежей

Как устроена архитектура Mixture-of-Experts?

MoE — это не новая идея: первые работы по «смеси экспертов» появились ещё в 1991 году у Джейкобса и Хинтона. Но именно в эпоху больших трансформеров эта архитектура получила второе рождение: Switch Transformer от Google, Mixtral 8x7B и 8x22B от Mistral, DeepSeek-V2 и V3, и теперь — Mellum2.

Если упростить, MoE работает так:

Внутри каждого слоя трансформера обычный feed-forward блок (FFN) заменяется на несколько параллельных «экспертов» — отдельных FFN-сетей.
Перед ними ставится небольшая нейросеть-router, которая для каждого токена решает: «какие 2 (или N) эксперта из 8 (или 64) сейчас должны активироваться?».
Во время инференса работают только выбранные эксперты — остальные «спят».

Результат: суммарное количество параметров большое (это даёт ёмкость для разнообразных знаний), но на каждый токен тратится FLOPs ровно столько, сколько у маленькой плотной модели. Mellum2 на 12B параметров, по оценкам индустрии, по скорости должна сравниваться с плотной моделью на 3-4B.

«Mixture-of-Experts позволяет нам масштабировать ёмкость модели без пропорционального роста стоимости инференса. Для специализированных доменов вроде кода это особенно ценно: разные эксперты могут специализироваться на разных языках программирования или паттернах», — следует из общего описания подхода в официальном анонсе Mellum2.

Где здесь подводные камни?

MoE — не серебряная пуля. Есть несколько типичных проблем, на которые стоит обратить внимание при работе с Mellum2:

Память на инференсе: все эксперты должны быть загружены в VRAM или RAM, даже если в каждый момент активны только два. То есть 12B-MoE требует ~12GB+ памяти в FP16, или ~6GB в Q4-квантизации — это меньше чем у dense-12B, но больше чем у dense-4B.
Балансировка нагрузки: если router всё время выбирает одних и тех же экспертов, остальные деградируют. JetBrains, по идее, должны были использовать стандартные приёмы — load balancing loss, expert dropout — но в реальных дообучениях это всё ещё проблема.
Совместимость с инструментами: не все runtime'ы (llama.cpp, vLLM, TGI, MLX) одинаково хорошо поддерживают конкретные MoE-варианты. Перед интеграцией стоит проверить поддержку в выбранном инференс-движке.

Чем Mellum2 отличается от первого Mellum?

Первый Mellum был выпущен JetBrains весной 2025 года и позиционировался как proof-of-concept: показать, что специализированная модель на 4B параметров может в задачах code completion обходить general-purpose модели на 7-8B. Mellum2 — это уже не PoC, а попытка серьёзной игры в нише.

Основные отличия:

Размер: 12B вместо 4B, причём в MoE-варианте.
Контекстное окно: расширено до 32K-128K токенов (точные цифры зависят от варианта модели). Для работы с большими репозиториями это принципиально — теперь модель может «видеть» сразу несколько файлов.
Дополнительный fine-tuning под Fill-in-the-Middle (FIM): специальный режим, когда модель должна вставить код между двумя известными фрагментами. Это ключевая задача для автодополнения в IDE.
Лучшее понимание namespace и context retrieval: модель обучена не просто продолжать строку, а учитывать структуру проекта, импорты, типы из соседних файлов.
Поддержка structured output: JSON, XML, function calling — стандартные для современных моделей возможности, которые в первом Mellum были экспериментальными.

Для тех, кто уже встраивал первый Mellum в свои пайплайны, переход на Mellum2 потребует пересборки промптов: формат токенов FIM, токенайзер и system prompt могут отличаться. Рекомендуем заглянуть в карточку модели на HuggingFace и проверить detailed inference instructions перед миграцией.

Как это сравнивается с другими code-моделями?

Чтобы понять место Mellum2 в экосистеме, полезно вспомнить главных конкурентов в open-weights нише на конец 2026 года:

DeepSeek Coder V2.5 — 236B MoE с 21B активных параметров. Сильнейший open-weights код на сегодня, но требует серьёзного железа.
Qwen2.5-Coder — линейка от 0.5B до 32B, dense. Очень популярна за счёт хорошего соотношения качество/размер.
Codestral 22B от Mistral — dense, заточена под FIM, лицензия только для исследований.
StarCoder 2 от BigCode — старая, но всё ещё актуальная для bench'ей.
Granite Code от IBM — корпоративный фокус, разные размеры.

Mellum2 на 12B-MoE целится в ту же нишу, что Qwen2.5-Coder-7B/14B: компактная модель, которую можно запустить на одной GPU средне-высокого класса. По начальным бенчмаркам, опубликованным в анонсе, Mellum2 близка к Qwen2.5-Coder-14B по HumanEval+ и обходит её на специфичных для JetBrains-стека задачах (Kotlin, IntelliJ-плагины). Полные бенчмарки и сравнения доступны на странице организации JetBrains в HuggingFace.

Сравнительные бенчмарки code-LLM: каждая модель имеет свои сильные стороны в зависимости от языка и типа задачи

А что с GPT-5 и Claude Sonnet 4.6?

Сравнивать open-weights модели с фронтир-API типа GPT-5, Claude Opus 4.7 и Gemini 2.5 Pro напрямую некорректно. Frontier-модели по-прежнему лидируют на сложных задачах SWE-bench Verified и в агентных сценариях, но они закрытые, дорогие и недоступны напрямую из России. Open-weights модели вроде Mellum2 нужны для других задач:

Локальное автодополнение без отправки кода во внешние API (требование информационной безопасности).
Self-hosted developer assistant в корпоративном контуре.
Дообучение под собственный кодовый стиль или внутренние библиотеки.
Дешёвый инференс на массовых сценариях, где не нужен максимальный интеллект.

Если же нужен именно максимум, удобный способ получить доступ ко всем флагманским моделям сразу — через WebGPT, где GPT-5, Claude и Gemini уже подключены и оплачиваются российской картой.

Как Mellum2 повлияет на пользователей в России?

Для российских разработчиков и AI-команд новость про Mellum2 имеет несколько вполне конкретных последствий.

Импортозамещение AI-ассистентов. Многие крупные банки, госкомпании и enterprise-проекты в России обязаны использовать инструменты, которые можно развернуть в собственном контуре. Mellum2 с открытыми весами — кандидат на роль такого инструмента наряду с Qwen Coder, DeepSeek и российскими попытками собственных code-LLM от Сбера и Яндекса.

Кириллица и комментарии на русском. У JetBrains в исходниках для дообучения исторически много контента на русском (в комментариях, документации внутренних библиотек). Это даёт надежду, что Mellum2 лучше большинства западных code-LLM понимает русскоязычные docstrings и issue-обсуждения. Полноценно это покажут только независимые тесты, но предпосылки есть.

Совместимость с российскими IDE-форками. IntelliJ-Based IDE (IDEA Community, Android Studio и др.) имеют русскоязычное сообщество, которое уже делает плагины под локальные нужды. Mellum2 даёт основу для таких плагинов с поддержкой автодополнения без отправки данных за рубеж.

Доступ к API без зарубежной карты. Если ваша команда не хочет возиться с self-hosting, но и не хочет привязываться к OpenAI/Anthropic из-за оплаты, через WebGPT уже доступны десятки моделей с оплатой российской картой. Это позволяет быстро прототипировать, не вкладываясь сразу в инфраструктуру для запуска MoE-моделей.

Что делать прямо сейчас?

Если вы рассматриваете Mellum2 для своей команды или для личного использования, вот практический план действий на ближайшие недели.

Для разработчиков-индивидуалов

Скачайте модель с HuggingFace в Q4 или Q5 квантизации (примерно 6-8GB).
Поставьте Ollama, LM Studio или text-generation-webui — любой из этих инструментов поддерживает локальный инференс.
Подключите к JetBrains IDE через плагин Continue или Cody, либо к VS Code через расширения с поддержкой OpenAI-совместимого API.
Сравните автодополнение с тем, что у вас сейчас (GitHub Copilot, JetBrains AI Assistant, локальный Qwen Coder). Замерьте latency и качество подсказок субъективно на ваших проектах.

Для команд и стартапов

Запустите Mellum2 на one-GPU инстансе (RTX 4090 / A6000 / L40S) через vLLM или TGI — оба фреймворка дают OpenAI-совместимый endpoint.
Прогоните внутренние бенчмарки на тех языках и фреймворках, которые используются у вас в продакшене.
Оцените стоимость токенов в вашем сценарии: при self-hosting главный фактор — utilization GPU, а не сама модель.
Параллельно подключите коммерческие API через единый шлюз — это можно сделать через WebGPT, где доступны и GPT-5, и Claude, и Gemini, и десяток китайских моделей.

Для enterprise

Если речь идёт о развёртывании в банке, телекоме или госструктуре, важно учесть три вещи: лицензионные ограничения Mellum2 (внимательно прочитать карточку модели), требования регулятора к локализации данных, и наличие support-контракта. JetBrains пока не предлагает enterprise-SLA конкретно под Mellum2 — это значит, что инфраструктуру придётся собирать самим или через подрядчиков.

Для всех категорий полезно следить за апдейтами в обзорах AI-моделей для разработчиков и регулярно сверять свой стек с альтернативами: рынок code-LLM в 2026 году обновляется буквально каждый месяц.

Когда станет доступно широкому пользователю?

Веса Mellum2 уже опубликованы на HuggingFace — теоретически любой разработчик может скачать их прямо сейчас. На практике интеграция в продуктовые workflow займёт несколько недель:

Сейчас (день анонса): модель доступна в формате safetensors на HuggingFace. Можно качать и запускать через transformers/vLLM.
1-2 недели: появятся GGUF-квантизации от community-мейнтейнеров (TheBloke и аналоги), что упростит локальный запуск через Ollama и llama.cpp.
2-4 недели: интеграция в JetBrains AI Assistant в стабильных версиях IDE (сейчас, вероятно, доступно в EAP).
1-2 месяца: появятся fine-tuned варианты от сообщества — заточенные под конкретные языки или задачи.

Если у вас нет времени ждать stable-релизов и собирать инфраструктуру самостоятельно, в WebGPT можно прямо сегодня попробовать топовые модели для кода — Claude Sonnet 4.6, GPT-5, DeepSeek-V3.5, Qwen Coder — в едином чате с оплатой российской картой и без VPN.

Типичный путь open-weights модели от анонса до массового использования занимает 1-3 месяца

Что это значит для рынка AI-разработки в целом?

Выход Mellum2 — это часть более широкого тренда: специализированные модели для узких задач становятся выгоднее, чем универсальные гиганты. В 2024 году все спорили о том, кто сделает «AGI для кода» — теперь стало ясно, что побеждают те, кто делает крепкие специализированные модели в нужной size-category и грамотно встраивает их в реальный workflow разработчика.

Для JetBrains это шаг к продуктовой независимости от OpenAI и Anthropic: компания строит собственный стек, который не зависит от лицензионной политики чужих API. Для индустрии это сигнал: даже компании, исторически не позиционировавшиеся как AI-лаборатории, могут выпускать конкурентоспособные foundation-модели.

Для российских и СНГ-разработчиков — это ещё один кирпич в стене импортонезависимого AI-стека, которую можно (и нужно) собирать из open-weights моделей. И параллельно — повод чаще пользоваться сервисами-агрегаторами вроде WebGPT, чтобы быстро тестировать каждую новинку без подписки на десяток API.

Часто задаваемые вопросы

Чем Mellum2 отличается от GitHub Copilot?

GitHub Copilot — это закрытый коммерческий сервис от Microsoft на основе моделей OpenAI, который требует подписки и отправляет код в облако. Mellum2 — открытая модель с весами, которую можно запустить локально без отправки данных наружу. Для России это особенно важно: оплатить Copilot напрямую сложно, а Mellum2 не требует никакой подписки.

Подойдёт ли Mellum2 для моего ноутбука?

Зависит от ноутбука. Для комфортной работы нужна GPU с минимум 8GB VRAM (RTX 3060/4060 или Apple Silicon с 16+ GB unified memory). На обычном CPU модель будет работать, но автодополнение в IDE станет некомфортно медленным. Альтернатива — использовать облачные модели через единый шлюз, например WebGPT.

Можно ли использовать Mellum2 в коммерческих продуктах?

Лицензия Mellum2 разрешает коммерческое использование с определёнными ограничениями. Перед интеграцией в продукт внимательно прочитайте полный текст лицензии в карточке модели на HuggingFace и при необходимости проконсультируйтесь с юристом. JetBrains обычно использует относительно либеральные лицензии, но конкретные условия могут варьироваться от модели к модели.

Можно ли дообучить Mellum2 под свой стек?

Да, поскольку веса открыты. Для дообучения 12B-MoE-модели нужны вычислительные ресурсы — минимум A100 80GB или несколько L40S/RTX 6000 Ada с tensor parallelism. Для большинства команд проще использовать LoRA или QLoRA: они дают приличный результат при существенно меньших ресурсах. Также имейте в виду, что MoE-модели сложнее в дообучении из-за необходимости поддерживать балансировку экспертов.

Когда стоит выбирать Mellum2 вместо облачных API?

Когда важны три фактора одновременно: privacy (код не должен покидать ваш контур), стоимость на больших объёмах токенов, и отсутствие зависимости от внешних провайдеров. Если этих требований нет — облачные API через шлюз вроде WebGPT обычно дают лучшее соотношение «качество результата на единицу усилия». А для прототипирования и эпизодического использования облака почти всегда выгоднее.

JetBrains представила Mellum2: открытая 12B MoE-модель для кода

Что произошло?

Почему это важно?

Геополитический контекст

Как устроена архитектура Mixture-of-Experts?

Где здесь подводные камни?

Чем Mellum2 отличается от первого Mellum?

Как это сравнивается с другими code-моделями?

А что с GPT-5 и Claude Sonnet 4.6?

Как Mellum2 повлияет на пользователей в России?

Что делать прямо сейчас?

Для разработчиков-индивидуалов

Для команд и стартапов

Для enterprise

Когда станет доступно широкому пользователю?

Что это значит для рынка AI-разработки в целом?

Часто задаваемые вопросы

Чем Mellum2 отличается от GitHub Copilot?

Подойдёт ли Mellum2 для моего ноутбука?

Можно ли использовать Mellum2 в коммерческих продуктах?

Можно ли дообучить Mellum2 под свой стек?

Когда стоит выбирать Mellum2 вместо облачных API?

Получи готовый результат за 2 минуты

Читайте также

ИИ помощник для конспектов лекций и семинаров: как нейросети меняют учёбу в 2026 году

Новые функции ChatGPT для бизнеса в июле 2026: что изменилось и как использовать

Кейс внедрения AI-ассистента в интернет-магазине: цифры, ошибки и результат

Как компании используют нейросети в поддержке клиентов: разбор 2026 года

Последние статьи

ИИ инструменты для обработки входящих лидов: 8 реальных кейсов с цифрами и результатами

Пошаговая инструкция по настройке ИИ-ассистента в компании: 50+ промптов и готовые шаблоны 2026

Кейс автоматизации клиентской поддержки через ИИ чат: обзор возможностей, реальные примеры и результаты в 2026 году

Как использовать нейросеть для подготовки доклада: пошаговый гид для студентов и школьников

Все категории

Короткий ответ

О чём эта статья?

Кому полезен этот материал?

JetBrains представила Mellum2: открытая 12B MoE-модель для кода

Что произошло?

Почему это важно?

Геополитический контекст

Как устроена архитектура Mixture-of-Experts?

Где здесь подводные камни?

Чем Mellum2 отличается от первого Mellum?

Как это сравнивается с другими code-моделями?

А что с GPT-5 и Claude Sonnet 4.6?

Как Mellum2 повлияет на пользователей в России?

Что делать прямо сейчас?

Для разработчиков-индивидуалов

Для команд и стартапов

Для enterprise

Когда станет доступно широкому пользователю?

Что это значит для рынка AI-разработки в целом?

Часто задаваемые вопросы

Чем Mellum2 отличается от GitHub Copilot?

Подойдёт ли Mellum2 для моего ноутбука?

Можно ли использовать Mellum2 в коммерческих продуктах?

Можно ли дообучить Mellum2 под свой стек?

Когда стоит выбирать Mellum2 вместо облачных API?

Получи готовый результат за 2 минуты

Читайте также

ИИ помощник для конспектов лекций и семинаров: как нейросети меняют учёбу в 2026 году

Новые функции ChatGPT для бизнеса в июле 2026: что изменилось и как использовать

Кейс внедрения AI-ассистента в интернет-магазине: цифры, ошибки и результат

Как компании используют нейросети в поддержке клиентов: разбор 2026 года

Последние статьи

ИИ инструменты для обработки входящих лидов: 8 реальных кейсов с цифрами и результатами

Пошаговая инструкция по настройке ИИ-ассистента в компании: 50+ промптов и готовые шаблоны 2026

Кейс автоматизации клиентской поддержки через ИИ чат: обзор возможностей, реальные примеры и результаты в 2026 году

Как использовать нейросеть для подготовки доклада: пошаговый гид для студентов и школьников

Все категории