Сравнить с похожими VPN-сценариями
Полезные разборы по VPN, установке и доступу к AI
JetBrains выпустила Mellum2 — открытую языковую модель на 12 миллиардов параметров с архитектурой Mixture-of-Experts (MoE), специально натренированную для работы с исходным кодом. Это означает, что у разработчиков появился ещё один мощный инструмент для автодополнения, рефакторинга и генерации кода — причём с открытыми весами, который можно изучать, тонко настраивать и запускать в собственной инфраструктуре. В этой статье разбираем, что именно анонсировала JetBrains, чем MoE-подход отличается от классических плотных моделей, как Mellum2 соотносится с первой версией линейки и какие практические последствия это имеет для AI-разработчиков в России и СНГ. Также покажем, как протестировать передовые модели для кода через WebGPT уже сегодня — без VPN и без зарубежной карты.
Что произошло?
Команда JetBrains AI опубликовала официальный анонс Mellum2 в блоге HuggingFace. Согласно описанию, Mellum2 — это вторая итерация семейства Mellum, языковых моделей, которые JetBrains разрабатывает специально для кода: подсказок в IDE, генерации функций, объяснения чужих фрагментов и поиска по большим репозиториям. В отличие от первой версии Mellum, которая была плотной (dense) моделью на 4 миллиарда параметров, новая Mellum2 построена на архитектуре Mixture-of-Experts с общим бюджетом 12B параметров.
Ключевые тезисы анонса:
- 12B параметров суммарно, но во время инференса активируется только часть «экспертов» — типичный для MoE приём, который удешевляет вычисления без потери качества.
- Открытые веса опубликованы на HuggingFace под лицензией, допускающей коммерческое использование с ограничениями (детали в карточке модели).
- Focus on code: датасет натренирован на репозиториях с пермиссивными лицензиями, документации, PR-обсуждениях и issue tracker'ах.
- Multi-language: модель умеет работать минимум с двумя десятками языков программирования — от Python и Kotlin до Rust, Go и TypeScript.
- Интеграция в JetBrains AI Assistant уже разворачивается, постепенно заменяя/дополняя предыдущие движки автодополнения.
Если первый Mellum воспринимался как нишевый эксперимент компании, то Mellum2 — это уже заявка на серьёзную позицию в нише code-LLM, где доминируют Codestral от Mistral, DeepSeek Coder, Qwen Coder и проприетарные модели типа GitHub Copilot и Cursor.
Почему это важно?
В 2025 году рынок специализированных моделей для кода окончательно отделился от рынка моделей общего назначения. Производительность на бенчмарках вроде HumanEval, SWE-bench Verified и LiveCodeBench перестала быть «бонусом» — это превратилось в отдельный продуктовый сегмент со своими лидерами. Появление Mellum2 в этом контексте важно сразу по нескольким причинам.
Во-первых, JetBrains — это не стартап и не исследовательская лаборатория. Это компания, которая 25 лет делает IDE и точно знает, где именно автодополнение должно быть быстрым, а где — глубоким. Команда имеет уникальный набор данных: телеметрию из IntelliJ IDEA, PyCharm, WebStorm и десятков других продуктов. По данным JetBrains, их IDE используют более 15 миллионов разработчиков, что даёт компании беспрецедентный доступ к реальным паттернам работы с кодом.
Во-вторых, MoE-архитектура снижает порог входа для self-hosted инференса. Если плотную модель на 12B пришлось бы крутить на GPU с 24+ ГБ VRAM, то MoE с эффективными ~3-4B активных параметров может запускаться на потребительских картах вроде RTX 4090, RTX 5090 или даже ноутбучных RTX 4070. Для российских команд, у которых нет доступа к облачным GPU класса H100, это критически важно.
Геополитический контекст
Для пользователей из России и СНГ публикация открытых весов имеет дополнительное значение. После 2022 года доступ к проприетарным API вроде GitHub Copilot, Cursor Pro и Claude Code стал значительно сложнее: оплата требует зарубежной карты, а сами сервисы могут блокировать аккаунты по геолокации. Открытая модель с весами на HuggingFace — это инструмент, который никто не может «отключить»: её можно скачать, развернуть локально и использовать в продакшене без зависимости от внешних провайдеров.
Как устроена архитектура Mixture-of-Experts?
MoE — это не новая идея: первые работы по «смеси экспертов» появились ещё в 1991 году у Джейкобса и Хинтона. Но именно в эпоху больших трансформеров эта архитектура получила второе рождение: Switch Transformer от Google, Mixtral 8x7B и 8x22B от Mistral, DeepSeek-V2 и V3, и теперь — Mellum2.
Если упростить, MoE работает так:
- Внутри каждого слоя трансформера обычный feed-forward блок (FFN) заменяется на несколько параллельных «экспертов» — отдельных FFN-сетей.
- Перед ними ставится небольшая нейросеть-router, которая для каждого токена решает: «какие 2 (или N) эксперта из 8 (или 64) сейчас должны активироваться?».
- Во время инференса работают только выбранные эксперты — остальные «спят».
Результат: суммарное количество параметров большое (это даёт ёмкость для разнообразных знаний), но на каждый токен тратится FLOPs ровно столько, сколько у маленькой плотной модели. Mellum2 на 12B параметров, по оценкам индустрии, по скорости должна сравниваться с плотной моделью на 3-4B.
«Mixture-of-Experts позволяет нам масштабировать ёмкость модели без пропорционального роста стоимости инференса. Для специализированных доменов вроде кода это особенно ценно: разные эксперты могут специализироваться на разных языках программирования или паттернах», — следует из общего описания подхода в официальном анонсе Mellum2.
Где здесь подводные камни?
MoE — не серебряная пуля. Есть несколько типичных проблем, на которые стоит обратить внимание при работе с Mellum2:
- Память на инференсе: все эксперты должны быть загружены в VRAM или RAM, даже если в каждый момент активны только два. То есть 12B-MoE требует ~12GB+ памяти в FP16, или ~6GB в Q4-квантизации — это меньше чем у dense-12B, но больше чем у dense-4B.
- Балансировка нагрузки: если router всё время выбирает одних и тех же экспертов, остальные деградируют. JetBrains, по идее, должны были использовать стандартные приёмы — load balancing loss, expert dropout — но в реальных дообучениях это всё ещё проблема.
- Совместимость с инструментами: не все runtime'ы (llama.cpp, vLLM, TGI, MLX) одинаково хорошо поддерживают конкретные MoE-варианты. Перед интеграцией стоит проверить поддержку в выбранном инференс-движке.
Чем Mellum2 отличается от первого Mellum?
Первый Mellum был выпущен JetBrains весной 2025 года и позиционировался как proof-of-concept: показать, что специализированная модель на 4B параметров может в задачах code completion обходить general-purpose модели на 7-8B. Mellum2 — это уже не PoC, а попытка серьёзной игры в нише.
Основные отличия:
- Размер: 12B вместо 4B, причём в MoE-варианте.
- Контекстное окно: расширено до 32K-128K токенов (точные цифры зависят от варианта модели). Для работы с большими репозиториями это принципиально — теперь модель может «видеть» сразу несколько файлов.
- Дополнительный fine-tuning под Fill-in-the-Middle (FIM): специальный режим, когда модель должна вставить код между двумя известными фрагментами. Это ключевая задача для автодополнения в IDE.
- Лучшее понимание namespace и context retrieval: модель обучена не просто продолжать строку, а учитывать структуру проекта, импорты, типы из соседних файлов.
- Поддержка structured output: JSON, XML, function calling — стандартные для современных моделей возможности, которые в первом Mellum были экспериментальными.
Для тех, кто уже встраивал первый Mellum в свои пайплайны, переход на Mellum2 потребует пересборки промптов: формат токенов FIM, токенайзер и system prompt могут отличаться. Рекомендуем заглянуть в карточку модели на HuggingFace и проверить detailed inference instructions перед миграцией.
Как это сравнивается с другими code-моделями?
Чтобы понять место Mellum2 в экосистеме, полезно вспомнить главных конкурентов в open-weights нише на конец 2026 года:
- DeepSeek Coder V2.5 — 236B MoE с 21B активных параметров. Сильнейший open-weights код на сегодня, но требует серьёзного железа.
- Qwen2.5-Coder — линейка от 0.5B до 32B, dense. Очень популярна за счёт хорошего соотношения качество/размер.
- Codestral 22B от Mistral — dense, заточена под FIM, лицензия только для исследований.
- StarCoder 2 от BigCode — старая, но всё ещё актуальная для bench'ей.
- Granite Code от IBM — корпоративный фокус, разные размеры.
Mellum2 на 12B-MoE целится в ту же нишу, что Qwen2.5-Coder-7B/14B: компактная модель, которую можно запустить на одной GPU средне-высокого класса. По начальным бенчмаркам, опубликованным в анонсе, Mellum2 близка к Qwen2.5-Coder-14B по HumanEval+ и обходит её на специфичных для JetBrains-стека задачах (Kotlin, IntelliJ-плагины). Полные бенчмарки и сравнения доступны на странице организации JetBrains в HuggingFace.
А что с GPT-5 и Claude Sonnet 4.6?
Сравнивать open-weights модели с фронтир-API типа GPT-5, Claude Opus 4.7 и Gemini 2.5 Pro напрямую некорректно. Frontier-модели по-прежнему лидируют на сложных задачах SWE-bench Verified и в агентных сценариях, но они закрытые, дорогие и недоступны напрямую из России. Open-weights модели вроде Mellum2 нужны для других задач:
- Локальное автодополнение без отправки кода во внешние API (требование информационной безопасности).
- Self-hosted developer assistant в корпоративном контуре.
- Дообучение под собственный кодовый стиль или внутренние библиотеки.
- Дешёвый инференс на массовых сценариях, где не нужен максимальный интеллект.
Если же нужен именно максимум, удобный способ получить доступ ко всем флагманским моделям сразу — через WebGPT, где GPT-5, Claude и Gemini уже подключены и оплачиваются российской картой.
Как Mellum2 повлияет на пользователей в России?
Для российских разработчиков и AI-команд новость про Mellum2 имеет несколько вполне конкретных последствий.
Импортозамещение AI-ассистентов. Многие крупные банки, госкомпании и enterprise-проекты в России обязаны использовать инструменты, которые можно развернуть в собственном контуре. Mellum2 с открытыми весами — кандидат на роль такого инструмента наряду с Qwen Coder, DeepSeek и российскими попытками собственных code-LLM от Сбера и Яндекса.
Кириллица и комментарии на русском. У JetBrains в исходниках для дообучения исторически много контента на русском (в комментариях, документации внутренних библиотек). Это даёт надежду, что Mellum2 лучше большинства западных code-LLM понимает русскоязычные docstrings и issue-обсуждения. Полноценно это покажут только независимые тесты, но предпосылки есть.
Совместимость с российскими IDE-форками. IntelliJ-Based IDE (IDEA Community, Android Studio и др.) имеют русскоязычное сообщество, которое уже делает плагины под локальные нужды. Mellum2 даёт основу для таких плагинов с поддержкой автодополнения без отправки данных за рубеж.
Доступ к API без зарубежной карты. Если ваша команда не хочет возиться с self-hosting, но и не хочет привязываться к OpenAI/Anthropic из-за оплаты, через WebGPT уже доступны десятки моделей с оплатой российской картой. Это позволяет быстро прототипировать, не вкладываясь сразу в инфраструктуру для запуска MoE-моделей.
Что делать прямо сейчас?
Если вы рассматриваете Mellum2 для своей команды или для личного использования, вот практический план действий на ближайшие недели.
Для разработчиков-индивидуалов
- Скачайте модель с HuggingFace в Q4 или Q5 квантизации (примерно 6-8GB).
- Поставьте Ollama, LM Studio или text-generation-webui — любой из этих инструментов поддерживает локальный инференс.
- Подключите к JetBrains IDE через плагин Continue или Cody, либо к VS Code через расширения с поддержкой OpenAI-совместимого API.
- Сравните автодополнение с тем, что у вас сейчас (GitHub Copilot, JetBrains AI Assistant, локальный Qwen Coder). Замерьте latency и качество подсказок субъективно на ваших проектах.
Для команд и стартапов
- Запустите Mellum2 на one-GPU инстансе (RTX 4090 / A6000 / L40S) через vLLM или TGI — оба фреймворка дают OpenAI-совместимый endpoint.
- Прогоните внутренние бенчмарки на тех языках и фреймворках, которые используются у вас в продакшене.
- Оцените стоимость токенов в вашем сценарии: при self-hosting главный фактор — utilization GPU, а не сама модель.
- Параллельно подключите коммерческие API через единый шлюз — это можно сделать через WebGPT, где доступны и GPT-5, и Claude, и Gemini, и десяток китайских моделей.
Для enterprise
Если речь идёт о развёртывании в банке, телекоме или госструктуре, важно учесть три вещи: лицензионные ограничения Mellum2 (внимательно прочитать карточку модели), требования регулятора к локализации данных, и наличие support-контракта. JetBrains пока не предлагает enterprise-SLA конкретно под Mellum2 — это значит, что инфраструктуру придётся собирать самим или через подрядчиков.
Для всех категорий полезно следить за апдейтами в обзорах AI-моделей для разработчиков и регулярно сверять свой стек с альтернативами: рынок code-LLM в 2026 году обновляется буквально каждый месяц.
Когда станет доступно широкому пользователю?
Веса Mellum2 уже опубликованы на HuggingFace — теоретически любой разработчик может скачать их прямо сейчас. На практике интеграция в продуктовые workflow займёт несколько недель:
- Сейчас (день анонса): модель доступна в формате safetensors на HuggingFace. Можно качать и запускать через transformers/vLLM.
- 1-2 недели: появятся GGUF-квантизации от community-мейнтейнеров (TheBloke и аналоги), что упростит локальный запуск через Ollama и llama.cpp.
- 2-4 недели: интеграция в JetBrains AI Assistant в стабильных версиях IDE (сейчас, вероятно, доступно в EAP).
- 1-2 месяца: появятся fine-tuned варианты от сообщества — заточенные под конкретные языки или задачи.
Если у вас нет времени ждать stable-релизов и собирать инфраструктуру самостоятельно, в WebGPT можно прямо сегодня попробовать топовые модели для кода — Claude Sonnet 4.6, GPT-5, DeepSeek-V3.5, Qwen Coder — в едином чате с оплатой российской картой и без VPN.
Что это значит для рынка AI-разработки в целом?
Выход Mellum2 — это часть более широкого тренда: специализированные модели для узких задач становятся выгоднее, чем универсальные гиганты. В 2024 году все спорили о том, кто сделает «AGI для кода» — теперь стало ясно, что побеждают те, кто делает крепкие специализированные модели в нужной size-category и грамотно встраивает их в реальный workflow разработчика.
Для JetBrains это шаг к продуктовой независимости от OpenAI и Anthropic: компания строит собственный стек, который не зависит от лицензионной политики чужих API. Для индустрии это сигнал: даже компании, исторически не позиционировавшиеся как AI-лаборатории, могут выпускать конкурентоспособные foundation-модели.
Для российских и СНГ-разработчиков — это ещё один кирпич в стене импортонезависимого AI-стека, которую можно (и нужно) собирать из open-weights моделей. И параллельно — повод чаще пользоваться сервисами-агрегаторами вроде WebGPT, чтобы быстро тестировать каждую новинку без подписки на десяток API.
Часто задаваемые вопросы
Чем Mellum2 отличается от GitHub Copilot?
GitHub Copilot — это закрытый коммерческий сервис от Microsoft на основе моделей OpenAI, который требует подписки и отправляет код в облако. Mellum2 — открытая модель с весами, которую можно запустить локально без отправки данных наружу. Для России это особенно важно: оплатить Copilot напрямую сложно, а Mellum2 не требует никакой подписки.
Подойдёт ли Mellum2 для моего ноутбука?
Зависит от ноутбука. Для комфортной работы нужна GPU с минимум 8GB VRAM (RTX 3060/4060 или Apple Silicon с 16+ GB unified memory). На обычном CPU модель будет работать, но автодополнение в IDE станет некомфортно медленным. Альтернатива — использовать облачные модели через единый шлюз, например WebGPT.
Можно ли использовать Mellum2 в коммерческих продуктах?
Лицензия Mellum2 разрешает коммерческое использование с определёнными ограничениями. Перед интеграцией в продукт внимательно прочитайте полный текст лицензии в карточке модели на HuggingFace и при необходимости проконсультируйтесь с юристом. JetBrains обычно использует относительно либеральные лицензии, но конкретные условия могут варьироваться от модели к модели.
Можно ли дообучить Mellum2 под свой стек?
Да, поскольку веса открыты. Для дообучения 12B-MoE-модели нужны вычислительные ресурсы — минимум A100 80GB или несколько L40S/RTX 6000 Ada с tensor parallelism. Для большинства команд проще использовать LoRA или QLoRA: они дают приличный результат при существенно меньших ресурсах. Также имейте в виду, что MoE-модели сложнее в дообучении из-за необходимости поддерживать балансировку экспертов.
Когда стоит выбирать Mellum2 вместо облачных API?
Когда важны три фактора одновременно: privacy (код не должен покидать ваш контур), стоимость на больших объёмах токенов, и отсутствие зависимости от внешних провайдеров. Если этих требований нет — облачные API через шлюз вроде WebGPT обычно дают лучшее соотношение «качество результата на единицу усилия». А для прототипирования и эпизодического использования облака почти всегда выгоднее.