WebGPTWebGPT

Короткий ответ

JetBrains выпустила Mellum2 — открытую 12B Mixture-of-Experts модель для разработчиков. Разбираем архитектуру и значение для AI-разработки в России.

О чём эта статья?

Статья объясняет тему JetBrains представила Mellum2: открытая 12B MoE-модель для кода и помогает быстро понять, стоит ли использовать этот сценарий, сервис или подход на практике.

Кому полезен этот материал?

Пользователям WebGPT, маркетологам, авторам и специалистам, которые выбирают инструменты AI и хотят сравнить решения по одной задаче.

Новости

JetBrains представила Mellum2: открытая 12B MoE-модель для кода

1 июня 2026 г.13 мин чтения

JetBrains выпустила Mellum2 — открытую 12B Mixture-of-Experts модель для разработчиков. Разбираем архитектуру и значение для AI-разработки в России.

Бесплатный VPN

Нужен стабильный VPN для нейросетей, YouTube и рабочих сервисов? Забери доступ через моего бота: t.me/freeipru_bot

Сравнить с похожими VPN-сценариями

Полезные разборы по VPN, установке и доступу к AI

JetBrains выпустила Mellum2 — открытую языковую модель на 12 миллиардов параметров с архитектурой Mixture-of-Experts (MoE), специально натренированную для работы с исходным кодом. Это означает, что у разработчиков появился ещё один мощный инструмент для автодополнения, рефакторинга и генерации кода — причём с открытыми весами, который можно изучать, тонко настраивать и запускать в собственной инфраструктуре. В этой статье разбираем, что именно анонсировала JetBrains, чем MoE-подход отличается от классических плотных моделей, как Mellum2 соотносится с первой версией линейки и какие практические последствия это имеет для AI-разработчиков в России и СНГ. Также покажем, как протестировать передовые модели для кода через WebGPT уже сегодня — без VPN и без зарубежной карты.

Mellum2 от JetBrains — открытая MoE-модель для разработчиков, продолжение линейки специализированных code-LLM

Что произошло?

Команда JetBrains AI опубликовала официальный анонс Mellum2 в блоге HuggingFace. Согласно описанию, Mellum2 — это вторая итерация семейства Mellum, языковых моделей, которые JetBrains разрабатывает специально для кода: подсказок в IDE, генерации функций, объяснения чужих фрагментов и поиска по большим репозиториям. В отличие от первой версии Mellum, которая была плотной (dense) моделью на 4 миллиарда параметров, новая Mellum2 построена на архитектуре Mixture-of-Experts с общим бюджетом 12B параметров.

Ключевые тезисы анонса:

  • 12B параметров суммарно, но во время инференса активируется только часть «экспертов» — типичный для MoE приём, который удешевляет вычисления без потери качества.
  • Открытые веса опубликованы на HuggingFace под лицензией, допускающей коммерческое использование с ограничениями (детали в карточке модели).
  • Focus on code: датасет натренирован на репозиториях с пермиссивными лицензиями, документации, PR-обсуждениях и issue tracker'ах.
  • Multi-language: модель умеет работать минимум с двумя десятками языков программирования — от Python и Kotlin до Rust, Go и TypeScript.
  • Интеграция в JetBrains AI Assistant уже разворачивается, постепенно заменяя/дополняя предыдущие движки автодополнения.

Если первый Mellum воспринимался как нишевый эксперимент компании, то Mellum2 — это уже заявка на серьёзную позицию в нише code-LLM, где доминируют Codestral от Mistral, DeepSeek Coder, Qwen Coder и проприетарные модели типа GitHub Copilot и Cursor.

Почему это важно?

В 2025 году рынок специализированных моделей для кода окончательно отделился от рынка моделей общего назначения. Производительность на бенчмарках вроде HumanEval, SWE-bench Verified и LiveCodeBench перестала быть «бонусом» — это превратилось в отдельный продуктовый сегмент со своими лидерами. Появление Mellum2 в этом контексте важно сразу по нескольким причинам.

Во-первых, JetBrains — это не стартап и не исследовательская лаборатория. Это компания, которая 25 лет делает IDE и точно знает, где именно автодополнение должно быть быстрым, а где — глубоким. Команда имеет уникальный набор данных: телеметрию из IntelliJ IDEA, PyCharm, WebStorm и десятков других продуктов. По данным JetBrains, их IDE используют более 15 миллионов разработчиков, что даёт компании беспрецедентный доступ к реальным паттернам работы с кодом.

Во-вторых, MoE-архитектура снижает порог входа для self-hosted инференса. Если плотную модель на 12B пришлось бы крутить на GPU с 24+ ГБ VRAM, то MoE с эффективными ~3-4B активных параметров может запускаться на потребительских картах вроде RTX 4090, RTX 5090 или даже ноутбучных RTX 4070. Для российских команд, у которых нет доступа к облачным GPU класса H100, это критически важно.

Геополитический контекст

Для пользователей из России и СНГ публикация открытых весов имеет дополнительное значение. После 2022 года доступ к проприетарным API вроде GitHub Copilot, Cursor Pro и Claude Code стал значительно сложнее: оплата требует зарубежной карты, а сами сервисы могут блокировать аккаунты по геолокации. Открытая модель с весами на HuggingFace — это инструмент, который никто не может «отключить»: её можно скачать, развернуть локально и использовать в продакшене без зависимости от внешних провайдеров.

Открытые веса Mellum2 позволяют разворачивать модель локально — без зависимости от зарубежных API и платежей

Как устроена архитектура Mixture-of-Experts?

MoE — это не новая идея: первые работы по «смеси экспертов» появились ещё в 1991 году у Джейкобса и Хинтона. Но именно в эпоху больших трансформеров эта архитектура получила второе рождение: Switch Transformer от Google, Mixtral 8x7B и 8x22B от Mistral, DeepSeek-V2 и V3, и теперь — Mellum2.

Если упростить, MoE работает так:

  1. Внутри каждого слоя трансформера обычный feed-forward блок (FFN) заменяется на несколько параллельных «экспертов» — отдельных FFN-сетей.
  2. Перед ними ставится небольшая нейросеть-router, которая для каждого токена решает: «какие 2 (или N) эксперта из 8 (или 64) сейчас должны активироваться?».
  3. Во время инференса работают только выбранные эксперты — остальные «спят».

Результат: суммарное количество параметров большое (это даёт ёмкость для разнообразных знаний), но на каждый токен тратится FLOPs ровно столько, сколько у маленькой плотной модели. Mellum2 на 12B параметров, по оценкам индустрии, по скорости должна сравниваться с плотной моделью на 3-4B.

«Mixture-of-Experts позволяет нам масштабировать ёмкость модели без пропорционального роста стоимости инференса. Для специализированных доменов вроде кода это особенно ценно: разные эксперты могут специализироваться на разных языках программирования или паттернах», — следует из общего описания подхода в официальном анонсе Mellum2.

Где здесь подводные камни?

MoE — не серебряная пуля. Есть несколько типичных проблем, на которые стоит обратить внимание при работе с Mellum2:

  • Память на инференсе: все эксперты должны быть загружены в VRAM или RAM, даже если в каждый момент активны только два. То есть 12B-MoE требует ~12GB+ памяти в FP16, или ~6GB в Q4-квантизации — это меньше чем у dense-12B, но больше чем у dense-4B.
  • Балансировка нагрузки: если router всё время выбирает одних и тех же экспертов, остальные деградируют. JetBrains, по идее, должны были использовать стандартные приёмы — load balancing loss, expert dropout — но в реальных дообучениях это всё ещё проблема.
  • Совместимость с инструментами: не все runtime'ы (llama.cpp, vLLM, TGI, MLX) одинаково хорошо поддерживают конкретные MoE-варианты. Перед интеграцией стоит проверить поддержку в выбранном инференс-движке.

Чем Mellum2 отличается от первого Mellum?

Первый Mellum был выпущен JetBrains весной 2025 года и позиционировался как proof-of-concept: показать, что специализированная модель на 4B параметров может в задачах code completion обходить general-purpose модели на 7-8B. Mellum2 — это уже не PoC, а попытка серьёзной игры в нише.

Основные отличия:

  1. Размер: 12B вместо 4B, причём в MoE-варианте.
  2. Контекстное окно: расширено до 32K-128K токенов (точные цифры зависят от варианта модели). Для работы с большими репозиториями это принципиально — теперь модель может «видеть» сразу несколько файлов.
  3. Дополнительный fine-tuning под Fill-in-the-Middle (FIM): специальный режим, когда модель должна вставить код между двумя известными фрагментами. Это ключевая задача для автодополнения в IDE.
  4. Лучшее понимание namespace и context retrieval: модель обучена не просто продолжать строку, а учитывать структуру проекта, импорты, типы из соседних файлов.
  5. Поддержка structured output: JSON, XML, function calling — стандартные для современных моделей возможности, которые в первом Mellum были экспериментальными.

Для тех, кто уже встраивал первый Mellum в свои пайплайны, переход на Mellum2 потребует пересборки промптов: формат токенов FIM, токенайзер и system prompt могут отличаться. Рекомендуем заглянуть в карточку модели на HuggingFace и проверить detailed inference instructions перед миграцией.

Как это сравнивается с другими code-моделями?

Чтобы понять место Mellum2 в экосистеме, полезно вспомнить главных конкурентов в open-weights нише на конец 2026 года:

  • DeepSeek Coder V2.5 — 236B MoE с 21B активных параметров. Сильнейший open-weights код на сегодня, но требует серьёзного железа.
  • Qwen2.5-Coder — линейка от 0.5B до 32B, dense. Очень популярна за счёт хорошего соотношения качество/размер.
  • Codestral 22B от Mistral — dense, заточена под FIM, лицензия только для исследований.
  • StarCoder 2 от BigCode — старая, но всё ещё актуальная для bench'ей.
  • Granite Code от IBM — корпоративный фокус, разные размеры.

Mellum2 на 12B-MoE целится в ту же нишу, что Qwen2.5-Coder-7B/14B: компактная модель, которую можно запустить на одной GPU средне-высокого класса. По начальным бенчмаркам, опубликованным в анонсе, Mellum2 близка к Qwen2.5-Coder-14B по HumanEval+ и обходит её на специфичных для JetBrains-стека задачах (Kotlin, IntelliJ-плагины). Полные бенчмарки и сравнения доступны на странице организации JetBrains в HuggingFace.

Сравнительные бенчмарки code-LLM: каждая модель имеет свои сильные стороны в зависимости от языка и типа задачи

А что с GPT-5 и Claude Sonnet 4.6?

Сравнивать open-weights модели с фронтир-API типа GPT-5, Claude Opus 4.7 и Gemini 2.5 Pro напрямую некорректно. Frontier-модели по-прежнему лидируют на сложных задачах SWE-bench Verified и в агентных сценариях, но они закрытые, дорогие и недоступны напрямую из России. Open-weights модели вроде Mellum2 нужны для других задач:

  • Локальное автодополнение без отправки кода во внешние API (требование информационной безопасности).
  • Self-hosted developer assistant в корпоративном контуре.
  • Дообучение под собственный кодовый стиль или внутренние библиотеки.
  • Дешёвый инференс на массовых сценариях, где не нужен максимальный интеллект.

Если же нужен именно максимум, удобный способ получить доступ ко всем флагманским моделям сразу — через WebGPT, где GPT-5, Claude и Gemini уже подключены и оплачиваются российской картой.

Как Mellum2 повлияет на пользователей в России?

Для российских разработчиков и AI-команд новость про Mellum2 имеет несколько вполне конкретных последствий.

Импортозамещение AI-ассистентов. Многие крупные банки, госкомпании и enterprise-проекты в России обязаны использовать инструменты, которые можно развернуть в собственном контуре. Mellum2 с открытыми весами — кандидат на роль такого инструмента наряду с Qwen Coder, DeepSeek и российскими попытками собственных code-LLM от Сбера и Яндекса.

Кириллица и комментарии на русском. У JetBrains в исходниках для дообучения исторически много контента на русском (в комментариях, документации внутренних библиотек). Это даёт надежду, что Mellum2 лучше большинства западных code-LLM понимает русскоязычные docstrings и issue-обсуждения. Полноценно это покажут только независимые тесты, но предпосылки есть.

Совместимость с российскими IDE-форками. IntelliJ-Based IDE (IDEA Community, Android Studio и др.) имеют русскоязычное сообщество, которое уже делает плагины под локальные нужды. Mellum2 даёт основу для таких плагинов с поддержкой автодополнения без отправки данных за рубеж.

Доступ к API без зарубежной карты. Если ваша команда не хочет возиться с self-hosting, но и не хочет привязываться к OpenAI/Anthropic из-за оплаты, через WebGPT уже доступны десятки моделей с оплатой российской картой. Это позволяет быстро прототипировать, не вкладываясь сразу в инфраструктуру для запуска MoE-моделей.

Что делать прямо сейчас?

Если вы рассматриваете Mellum2 для своей команды или для личного использования, вот практический план действий на ближайшие недели.

Для разработчиков-индивидуалов

  1. Скачайте модель с HuggingFace в Q4 или Q5 квантизации (примерно 6-8GB).
  2. Поставьте Ollama, LM Studio или text-generation-webui — любой из этих инструментов поддерживает локальный инференс.
  3. Подключите к JetBrains IDE через плагин Continue или Cody, либо к VS Code через расширения с поддержкой OpenAI-совместимого API.
  4. Сравните автодополнение с тем, что у вас сейчас (GitHub Copilot, JetBrains AI Assistant, локальный Qwen Coder). Замерьте latency и качество подсказок субъективно на ваших проектах.

Для команд и стартапов

  1. Запустите Mellum2 на one-GPU инстансе (RTX 4090 / A6000 / L40S) через vLLM или TGI — оба фреймворка дают OpenAI-совместимый endpoint.
  2. Прогоните внутренние бенчмарки на тех языках и фреймворках, которые используются у вас в продакшене.
  3. Оцените стоимость токенов в вашем сценарии: при self-hosting главный фактор — utilization GPU, а не сама модель.
  4. Параллельно подключите коммерческие API через единый шлюз — это можно сделать через WebGPT, где доступны и GPT-5, и Claude, и Gemini, и десяток китайских моделей.

Для enterprise

Если речь идёт о развёртывании в банке, телекоме или госструктуре, важно учесть три вещи: лицензионные ограничения Mellum2 (внимательно прочитать карточку модели), требования регулятора к локализации данных, и наличие support-контракта. JetBrains пока не предлагает enterprise-SLA конкретно под Mellum2 — это значит, что инфраструктуру придётся собирать самим или через подрядчиков.

Для всех категорий полезно следить за апдейтами в обзорах AI-моделей для разработчиков и регулярно сверять свой стек с альтернативами: рынок code-LLM в 2026 году обновляется буквально каждый месяц.

Когда станет доступно широкому пользователю?

Веса Mellum2 уже опубликованы на HuggingFace — теоретически любой разработчик может скачать их прямо сейчас. На практике интеграция в продуктовые workflow займёт несколько недель:

  • Сейчас (день анонса): модель доступна в формате safetensors на HuggingFace. Можно качать и запускать через transformers/vLLM.
  • 1-2 недели: появятся GGUF-квантизации от community-мейнтейнеров (TheBloke и аналоги), что упростит локальный запуск через Ollama и llama.cpp.
  • 2-4 недели: интеграция в JetBrains AI Assistant в стабильных версиях IDE (сейчас, вероятно, доступно в EAP).
  • 1-2 месяца: появятся fine-tuned варианты от сообщества — заточенные под конкретные языки или задачи.

Если у вас нет времени ждать stable-релизов и собирать инфраструктуру самостоятельно, в WebGPT можно прямо сегодня попробовать топовые модели для кода — Claude Sonnet 4.6, GPT-5, DeepSeek-V3.5, Qwen Coder — в едином чате с оплатой российской картой и без VPN.

Типичный путь open-weights модели от анонса до массового использования занимает 1-3 месяца

Что это значит для рынка AI-разработки в целом?

Выход Mellum2 — это часть более широкого тренда: специализированные модели для узких задач становятся выгоднее, чем универсальные гиганты. В 2024 году все спорили о том, кто сделает «AGI для кода» — теперь стало ясно, что побеждают те, кто делает крепкие специализированные модели в нужной size-category и грамотно встраивает их в реальный workflow разработчика.

Для JetBrains это шаг к продуктовой независимости от OpenAI и Anthropic: компания строит собственный стек, который не зависит от лицензионной политики чужих API. Для индустрии это сигнал: даже компании, исторически не позиционировавшиеся как AI-лаборатории, могут выпускать конкурентоспособные foundation-модели.

Для российских и СНГ-разработчиков — это ещё один кирпич в стене импортонезависимого AI-стека, которую можно (и нужно) собирать из open-weights моделей. И параллельно — повод чаще пользоваться сервисами-агрегаторами вроде WebGPT, чтобы быстро тестировать каждую новинку без подписки на десяток API.

Часто задаваемые вопросы

Чем Mellum2 отличается от GitHub Copilot?

GitHub Copilot — это закрытый коммерческий сервис от Microsoft на основе моделей OpenAI, который требует подписки и отправляет код в облако. Mellum2 — открытая модель с весами, которую можно запустить локально без отправки данных наружу. Для России это особенно важно: оплатить Copilot напрямую сложно, а Mellum2 не требует никакой подписки.

Подойдёт ли Mellum2 для моего ноутбука?

Зависит от ноутбука. Для комфортной работы нужна GPU с минимум 8GB VRAM (RTX 3060/4060 или Apple Silicon с 16+ GB unified memory). На обычном CPU модель будет работать, но автодополнение в IDE станет некомфортно медленным. Альтернатива — использовать облачные модели через единый шлюз, например WebGPT.

Можно ли использовать Mellum2 в коммерческих продуктах?

Лицензия Mellum2 разрешает коммерческое использование с определёнными ограничениями. Перед интеграцией в продукт внимательно прочитайте полный текст лицензии в карточке модели на HuggingFace и при необходимости проконсультируйтесь с юристом. JetBrains обычно использует относительно либеральные лицензии, но конкретные условия могут варьироваться от модели к модели.

Можно ли дообучить Mellum2 под свой стек?

Да, поскольку веса открыты. Для дообучения 12B-MoE-модели нужны вычислительные ресурсы — минимум A100 80GB или несколько L40S/RTX 6000 Ada с tensor parallelism. Для большинства команд проще использовать LoRA или QLoRA: они дают приличный результат при существенно меньших ресурсах. Также имейте в виду, что MoE-модели сложнее в дообучении из-за необходимости поддерживать балансировку экспертов.

Когда стоит выбирать Mellum2 вместо облачных API?

Когда важны три фактора одновременно: privacy (код не должен покидать ваш контур), стоимость на больших объёмах токенов, и отсутствие зависимости от внешних провайдеров. Если этих требований нет — облачные API через шлюз вроде WebGPT обычно дают лучшее соотношение «качество результата на единицу усилия». А для прототипирования и эпизодического использования облака почти всегда выгоднее.

Попробуйте WebGPT бесплатно

Более 100 нейросетей в одном окне — ChatGPT, Claude, Gemini и другие. Без VPN и зарубежных карт.

Промокод:

100 бонусных токенов на 30 дн.

Начать бесплатно

Читайте также

Новости
Новости2 июня 2026 г.

Эндрю Годвин: ограничивайте LLM как пользователей

Core-разработчик Django Эндрю Годвин предложил относиться к выходу больших языковых моделей как к недоверенному пользовательскому вводу. Разбираем тезисы манифеста, конкретные техники ограничения и их значение для разработчиков в России и СНГ.

10 мин чтения

Последние статьи

Кейсы
Кейсы2 июня 2026 г.

ВПН для браузера psysovet в 2026 году: 10 реальных кейсов выбора расширений для Chrome, Edge и Firefox

Метод psysovet для подбора браузерного ВПН: разбор 10 практических кейсов установки расширений в Chrome, Edge, Firefox и Yandex Browser с замерами скорости, безопасности и стабильности для работы из России в 2026 году.

14 мин чтения
Обзоры
Обзоры2 июня 2026 г.

Radmin VPN скачать на ПК в 2026 году: честный обзор сервиса, способы установки и реальные альтернативы для геймеров

Подробный обзор Radmin VPN: где скачать на ПК официальную версию без вирусов, как настроить для Minecraft и других игр, плюсы, минусы и работающие альтернативы в России.

17 мин чтения
Для учёбы
Для учёбы1 июня 2026 г.

Hit VPN для ПК в 2026: учебный гид для студентов и школьников

Подробный учебный разбор Hit VPN для компьютера: что это, как скачать и установить на Windows, чем отличаются Hit Ray VPN и Hit Wave VPN, и как студенту использовать сервис для доступа к AI-инструментам.

13 мин чтения