Selectel опубликовал на Хабре результаты тестирования NVIDIA HGX B300 — нового инференс-сервера на архитектуре Blackwell Ultra с 8 GPU и 2,3 ТБ видеопамяти. Платформу прогнали на трёх популярных открытых LLM: DeepSeek-R1, Qwen и MiniMax M1. Это первый публичный российский бенчмарк B300-системы, и цифры показывают, что одна стойка теперь способна обслуживать сотни одновременных пользователей крупных моделей вроде DeepSeek-R1 671B без квантизации. В статье разбираем, что именно тестировали, какие результаты получили, и как появление таких машин в инфраструктуре российских облаков скажется на скорости и стоимости AI-сервисов для пользователей в России и СНГ.
Что произошло?
Команда Selectel получила в руки сервер на базе NVIDIA HGX B300 — это эталонная платформа от NVIDIA, на которой OEM-производители (Supermicro, Dell, ASUS) строят коммерческие 8-GPU-системы. Внутри — восемь ускорителей Blackwell Ultra, объединённых пятым поколением NVLink, общая полоса между GPU составляет 14,4 ТБ/с. Совокупный объём HBM3e-памяти на сервер — 2,3 терабайта, что в 1,5 раза больше, чем у предшественника HGX B200.
Главный смысл апгрейда — именно память. Blackwell Ultra получил 288 ГБ HBM3e на каждый GPU против 192 ГБ у обычного B200. Этого достаточно, чтобы целиком разместить веса DeepSeek-R1 671B в FP8 на одном сервере и оставить запас для KV-кэша при длинных контекстах. Раньше для такого требовалось два сервера и медленный обмен через InfiniBand.
Тестирование прошло на трёх моделях:
- DeepSeek-R1 671B — рассуждающая MoE-модель, ставшая хитом 2025 года;
- Qwen3-235B-A22B — флагман Alibaba с активацией 22 млрд параметров из 235 млрд общих;
- MiniMax-M1 — китайская модель с гибридной архитектурой Lightning Attention, поддерживающая контекст до 1 млн токенов.
Подробный отчёт о методике и числах опубликован в статье инженеров Selectel на Хабре — там же выложены сырые логи vLLM и SGLang.
Почему это важно для пользователей AI в России и СНГ?
Для российской аудитории появление B300-серверов в локальной инфраструктуре — это прямой ответ на главную боль последних двух лет: ограниченный доступ к топовым облачным API западных провайдеров. С момента ограничений OpenAI и Anthropic для пользователей из России в 2024 году рынок переориентировался на открытые модели — DeepSeek, Qwen, Llama, MiniMax — которые можно запускать на собственном железе и продавать по подписке через российские сервисы. Но запускать их кому-то нужно, и именно здесь появляется B300.
По данным бенчмарка Selectel, один сервер B300 выдаёт на DeepSeek-R1 671B порядка 3500 токенов в секунду при батче в 64 запроса. В пересчёте на конечного пользователя это означает, что одной стойкой можно обслужить ~200 одновременных активных диалогов с приличной скоростью генерации (15-20 токенов/сек на каждого), причём без потерь качества из-за квантизации в INT4.
«HGX B300 — первая платформа, на которой DeepSeek-R1 671B помещается целиком в FP8 на один узел. Это меняет экономику инференса рассуждающих моделей: больше не нужны сложные конфигурации с tensor parallelism через сеть», — отмечают инженеры Selectel в своей публикации.
Что это даёт конечному пользователю в России:
- Снижение задержки — модель в одном сервере = нет сетевых хопов между GPU-узлами, time-to-first-token падает с 800-1200 мс до 200-400 мс;
- Доступ к полным версиям моделей — больше не приходится довольствоваться квантованными до INT4 «огрызками», теряющими 10-15% качества на сложных задачах;
- Снижение цены подписки — себестоимость токена на B300 примерно вдвое ниже, чем на H100-кластерах, что в перспективе позволит провайдерам опустить тарифы.
В WebGPT уже доступны DeepSeek-R1 и Qwen в полных версиях — именно потому, что мы используем инфраструктуру с достаточным объёмом VRAM для запуска моделей без агрессивной квантизации.
Что именно показали тесты на DeepSeek-R1?
DeepSeek-R1 — пожалуй, самая интересная цель для бенчмарка. Это MoE-модель с 671 миллиардом общих параметров и 37 миллиардами активных на токен, к тому же «рассуждающая» — она генерирует длинные цепочки размышлений перед ответом, что многократно увеличивает нагрузку на инференс. Раньше для её комфортного запуска требовался кластер из двух H100-узлов с общим объёмом памяти 1280 ГБ.
Результаты Selectel:
- Throughput: 3520 токенов/сек на батче 64, длина выхода 1024 токена;
- Latency p50: 280 мс до первого токена, 18 мс между токенами;
- Поддерживаемый контекст: до 128К токенов без OOM при батче 16;
- Энергопотребление: ~9,5 кВт под полной нагрузкой (вся стойка с охлаждением и сетью).
Для сравнения, на двухузловом H100-кластере (16 GPU суммарно) аналогичный батч давал около 2100 ток/сек — то есть B300-узел из 8 GPU быстрее, чем H100-кластер из 16, и при этом в полтора раза экономичнее по электричеству. Эта арифметика для российских ЦОДов критична: стоимость электроэнергии и охлаждения — главные статьи OPEX, и каждый сэкономленный киловатт напрямую отражается в цене API-токена.
Что с длинным контекстом?
Большой объём HBM3e имеет ещё один эффект: KV-кэш для длинных контекстов перестаёт быть узким местом. На DeepSeek-R1 с контекстом 100К токенов кэш одного запроса занимает порядка 35 ГБ — на B200 с 192 ГБ на GPU это означало бы фактический батч 4-5 запросов на ускоритель. На B300 (288 ГБ) умещается 7-8 запросов, что напрямую повышает throughput при работе с длинными документами и многошаговым reasoning'ом.
Как себя показали Qwen и MiniMax?
Qwen3-235B-A22B — флагман от Alibaba, который в открытых бенчмарках вплотную приближается к GPT-4-классу. У него меньше параметров, чем у DeepSeek-R1, и меньше активных весов (22 млрд против 37 млрд), поэтому он быстрее. На B300 Selectel получили 5800 токенов/сек на батче 64 — почти на 65% выше, чем у DeepSeek-R1. Это делает Qwen3 идеальным кандидатом для массовых сценариев: генерация кода, текстов, перевод, классификация.
MiniMax-M1 — самая необычная из тестировавшихся моделей. Её фишка — Lightning Attention, гибридная архитектура с линейной сложностью по контексту, позволяющая работать с 1 миллионом токенов без квадратичного роста потребления памяти. На обычных GPU это всё равно тяжело — но на B300 с 2,3 ТБ VRAM модель развернулась без шаманства с offloading'ом.
«MiniMax-M1 на B300 показала рекордную для нас цифру — 850 тыс. токенов контекста при стабильной задержке первого токена около 1,2 секунды. Это первая по-настоящему практичная конфигурация для агентских сценариев с большой историей», — пишут авторы публикации.
Что это значит на практике? Появляется реальная возможность строить агентов, которые помнят весь предыдущий диалог, всю кодовую базу или весь корпоративный документ целиком, без RAG-костылей с векторными базами. Для разработчиков, использующих WebGPT в работе с большими репозиториями, это потенциальный game-changer — можно вкладывать в контекст не отдельные файлы, а весь модуль.
Когда B300-инфраструктура станет массовой в России?
Здесь начинаются сложности. NVIDIA Blackwell Ultra находится в санкционном списке США с октября 2025 года — формально поставки в Россию запрещены. На практике серверы попадают через параллельный импорт (Казахстан, ОАЭ, Турция), и Selectel в своей публикации прямо указывает, что закупка велась «через дружественные юрисдикции». Это означает дефицит и наценку: один сервер обходится в $450-550 тысяч против $300-380 тысяч на западных рынках.
Тем не менее, прогноз на ближайшие 12 месяцев умеренно оптимистичный:
- Конец 2026 — начало 2027: B300-кластеры массово появляются у крупных провайдеров — Selectel, Yandex Cloud, VK Cloud, Cloud.ru;
- Лето 2027: первые B300-инстансы становятся доступны для аренды по часам в публичных облаках;
- Конец 2027: AI-сервисы конечного уровня (вроде WebGPT) начинают использовать B300-инфраструктуру для премиум-моделей с контекстом 200K+ токенов.
Параллельно идёт развитие отечественных GPU — НТЦ «Модуль» и «МЦСТ» анонсировали свои AI-ускорители на 2027 год, но по производительности они будут на уровне A100, а не B300. Поэтому в ближайшие два года российский рынок будет жить на «параллельном» Blackwell.
Что с экспортными ограничениями?
NVIDIA в октябре 2025 года ввела дополнительные ограничения: каждый B300-сервер требует активации через серверы NVIDIA при первом запуске, и эта активация может быть отозвана. В публикации Selectel вскользь упоминается, что они используют offline-режим активации, доступный для крупных корпоративных клиентов через посредников. Подробности технических обходов в открытых источниках не раскрываются — это серая зона.
Как это сравнить с тем, что предлагают OpenAI и Anthropic?
OpenAI и Anthropic используют собственные кастомные конфигурации B200/B300 в дата-центрах Microsoft Azure и AWS соответственно. Точных цифр по их инфраструктуре нет, но публичные оценки на основе цен API дают представление о масштабе:
- GPT-4 Turbo: стоимость инференса оценочно $0,005–$0,008 за 1K токенов вывода (по данным Semianalysis за начало 2026);
- Claude Opus 4.7: $0,015–$0,020 за 1K токенов (закрытые данные);
- DeepSeek-R1 на B300 в Selectel: расчётно $0,002–$0,003 за 1K токенов при полной загрузке.
Разница в стоимости в 2-5 раз — это и есть главный экономический аргумент в пользу открытых моделей на собственной инфраструктуре. Конечно, GPT-4 и Claude качественно сильнее на ряде задач, но для 80% типичных пользовательских кейсов (генерация текстов, помощь в написании кода, перевод, суммаризация) DeepSeek-R1 на B300 даёт сопоставимый результат при заметно меньшей цене.
В WebGPT мы используем гибридный подход: даём пользователям доступ и к закрытым моделям (GPT-4, Claude, Gemini), и к открытым (DeepSeek, Qwen) — последние работают на инфраструктуре с достаточным VRAM, чтобы не резать качество квантизацией. Появление B300 в России сделает этот стек ещё дешевле и быстрее. Подробнее об этом мы писали в материале о запуске DeepSeek-R1 в российских облаках.
Что делать прямо сейчас разработчикам и бизнесу?
Если вы занимаетесь продуктами на базе AI или планируете строить сервис с использованием LLM, появление B300 в России — это сигнал переоценить стратегию. Несколько практических шагов:
- Тестируйте открытые модели сейчас. Если ваш продукт целиком завязан на OpenAI API — это риск. Запустите параллельный пайплайн на DeepSeek-R1 или Qwen3 через российские API (Selectel, Cloud.ru, GigaChat), сравните качество на ваших реальных задачах.
- Закладывайте миграцию на длинный контекст. С приходом B300 контекст 100K+ токенов становится стандартом. Архитектуры с агрессивным RAG и chunking'ом частично теряют смысл — переходите на конструкцию «загрузить всё в контекст, дать модели работать».
- Учитывайте FP8 в выборе моделей. FP8 (8-битный floating point) на Blackwell даёт ту же точность, что FP16, но вдвое быстрее. Если ваша модель не обучена для FP8 — это технический долг.
- Готовьтесь к снижению цен. В горизонте 12 месяцев стоимость API-токенов для DeepSeek/Qwen в России должна снизиться в 1,5-2 раза по мере прихода B300. Закладывать в бюджет рост — преждевременно.
Для конечных пользователей логика проще: следите за тем, какие модели и контексты предлагает ваш AI-сервис. Если провайдер ограничивает контекст 32К токенами или предлагает только квантованные версии — это, скорее всего, дешёвая инфраструктура на H100 или A100. Сервисы с честным длинным контекстом и неквантованными моделями — это уже B200/B300, и качество ответов там заметно выше.
Технические нюансы для тех, кто будет арендовать B300
Из публикации Selectel можно вытянуть несколько практических деталей, которые помогут командам, планирующим работу с B300:
- vLLM 0.7+ обязателен — более ранние версии не поддерживают FP8 на Blackwell корректно, throughput падает в 2-3 раза;
- SGLang 0.4+ показывает лучшие результаты для рассуждающих моделей (DeepSeek-R1) за счёт оптимизации CoT-кэширования;
- Драйвер NVIDIA 565+ — без него нет поддержки NVLink 5;
- CUDA 12.6+ — минимальное требование для запуска;
- Linux kernel 6.6+ — для корректной работы с PCIe Gen6.
Если вы поднимаете собственный инференс — заложите 2-3 недели на тонкую настройку. Selectel в публикации отдельно отмечают, что «из коробки» B300 даёт 60-70% от паспортной производительности, и только после оптимизации batching'а, attention-бэкенда и KV-кэш-аллокатора удалось выжать заявленные цифры.
Что это означает для российского AI-рынка в целом?
Появление B300 в России — это последний кусочек паззла, который делал открытые LLM коммерчески рискованной альтернативой закрытым API. Раньше можно было сказать: «да, DeepSeek хорош, но у Selectel его инстанс стоит дороже OpenAI-токенов из-за дорогой инфраструктуры». Теперь арифметика меняется: открытые модели на B300 объективно дешевле, и при этом не требуют «параллельных» способов оплаты OpenAI через зарубежные карты, что для бизнеса — отдельная головная боль (комплаенс, NDS, валютный контроль).
Прогноз на 2027 год: доля open-source LLM в российском корпоративном AI-стеке вырастет с текущих ~30% до 55-60%. Закрытые API будут использоваться преимущественно там, где принципиально важны фронтиры качества — креативные задачи, юридический анализ, сложный код. Массовые задачи — генерация, перевод, классификация, чат-боты — уйдут на DeepSeek/Qwen/Llama на B300-инфраструктуре.
Для пользователей сервисов вроде WebGPT это означает в первую очередь стабильность и снижение цен. Чем дешевле инфраструктура у провайдеров — тем меньше риск, что подписка подорожает «из-за роста стоимости API». Мы в WebGPT уже сейчас наблюдаем эту динамику: за последний год удельная стоимость токена в нашей инфраструктуре снизилась на 35%, и большая часть этого снижения — заслуга именно открытых моделей нового поколения.
Часто задаваемые вопросы
Чем NVIDIA HGX B300 отличается от B200?
Главное отличие — увеличенный объём HBM3e-памяти: 288 ГБ на GPU против 192 ГБ у B200, итого 2,3 ТБ на 8-GPU-сервер. Это позволяет целиком разместить веса крупных моделей вроде DeepSeek-R1 671B на одном узле без сетевого парallelism'а. Также повышена вычислительная мощность FP8/FP4 примерно на 30%.
Можно ли уже сейчас арендовать B300 в России?
На момент публикации Selectel запустил тестовый кластер с ограниченным доступом для крупных корпоративных клиентов. Публичная аренда по часам ожидается во второй половине 2027 года. Yandex Cloud, VK Cloud и Cloud.ru также анонсировали закупку B300-серверов, но конкретных сроков запуска пока не называли.
Какие модели лучше всего подходят для B300?
Идеальные кандидаты — крупные MoE-модели (DeepSeek-R1 671B, Qwen3-235B-A22B, MiniMax-M1), а также модели с очень длинным контекстом (1M токенов). Для небольших моделей (до 70B) B300 избыточен — H100/H200 справятся не хуже и дешевле. B300 раскрывается там, где упор делается на VRAM, а не на чистый FLOPS.
Как это повлияет на цены AI-сервисов в России?
В горизонте 12-18 месяцев стоимость API-токенов для открытых моделей (DeepSeek, Qwen) в российских облаках должна снизиться в 1,5-2 раза. Для конечных пользователей это означает либо снижение цены подписки, либо повышение лимитов в существующих тарифах. Закрытые API (OpenAI, Anthropic) на цену в России не повлияют — они и так доступны через посредников по фиксированной марже.
Где почитать подробный технический отчёт?
Полный бенчмарк с методикой, конфигами vLLM/SGLang и сырыми логами опубликован в блоге Selectel на Хабре. Там же есть GitHub-репозиторий с тестовыми скриптами, который можно повторить на собственной инфраструктуре, если у вас есть доступ к B200/B300.