Gemini API: safety_settings для разработчиков в 2026

В первой половине 2026 года Google выкатила серию обновлений Gemini API, которые заметно меняют правила игры для разработчиков. Главная новость — расширенная гибкость параметра safety_settings и появление новых HarmCategory, что позволяет точнее настраивать фильтры модерации под конкретные бизнес-задачи. Разработчики медицинских ассистентов, юридических платформ, security-инструментов и creative-writing сервисов давно жаловались на ложные срабатывания: модель отказывалась обсуждать дозировку лекарств, цитировать уголовный кодекс или писать триллер с элементами насилия. Теперь у команд появились легальные инструменты, чтобы снизить количество отказов и не нарушать при этом политику Google.

В этом материале мы разбираем, что конкретно изменилось, как грамотно настраивать фильтры, где проходит граница допустимого и почему российским разработчикам удобно тестировать Gemini API через WebGPT (ask.gptweb.ru) — без VPN, карт иностранных банков и рисков блокировки аккаунта.

Разработчики получили больше контроля над фильтрами модерации Gemini API

Что произошло: хронология изменений Gemini API в 2026 году

Чтобы понять контекст, полезно восстановить последовательность событий. В январе 2026 Google опубликовала обновлённый changelog для Vertex AI и Google AI Studio, где впервые прозвучала формулировка «reduced false positive rate for enterprise developers». Речь шла о том, что модель стала реже блокировать запросы, содержащие медицинскую, юридическую и security-терминологию.

В феврале был расширен список HarmCategory: помимо привычных HARASSMENT, HATE_SPEECH, SEXUALLY_EXPLICIT и DANGEROUS_CONTENT, появились более гранулярные подкатегории. Это важное изменение, потому что раньше разработчик был вынужден отключать всю категорию целиком — например, DANGEROUS_CONTENT — даже если ему нужно было обсуждать только химию для обучающего приложения по ЕГЭ.

В марте Google сняла часть ограничений для enterprise-тарифа и разрешила задавать порог BLOCK_NONE для большего числа категорий — при условии, что приложение прошло ревью и разработчик согласился с условиями использования. Это фактически приблизило Gemini к уровню конфигурируемости, который давно есть у конкурентов вроде Mistral или self-hosted моделей.

В апреле произошло ещё одно важное событие: Google синхронизировала политику модерации между Gemini 3 Pro, Gemini 3 Flash и экспериментальной Gemini 3 Ultra. Теперь разработчик может переключаться между моделями без страха, что одна и та же настройка safety_settings даст разное поведение.

Почему это важно для индустрии

До 2026 года Gemini считался одной из самых «зажатых» моделей на рынке. Бенчмарки от независимых исследователей показывали, что Gemini отказывает в 18–23% запросов, которые GPT-5 и Claude 4 выполняли без проблем. Особенно страдали:

Медицинские стартапы — модель отказывалась обсуждать побочные эффекты лекарств, даже когда промпт явно указывал на образовательный характер
LegalTech — автоматические отказы при цитировании статей УК РФ или разборе уголовных дел
Security-исследователи — невозможность обсудить CVE, пентест-методологии, разбор malware-образцов
Creative writing — блокировка сцен с конфликтом, военными действиями, эмоциональным напряжением
Обучающие сервисы по химии и биологии — отказы на школьные задачи про реакции

Новые настройки safety_settings напрямую адресуют эти боли. Это не «обход цензуры» в смысле обмана системы — это штатный механизм, предусмотренный Google для профессиональных сценариев.

Интерфейс настройки safety_settings стал более гранулярным

Как работает safety_settings: техническая сторона

Параметр safety_settings передаётся в теле запроса к эндпоинту generateContent и представляет собой массив объектов. Каждый объект описывает категорию вреда и пороговое значение, при котором модель будет блокировать ответ.

Структура запроса

В простейшем виде запрос выглядит так:

POST https://generativelanguage.googleapis.com/v1beta/models/gemini-3-pro:generateContent
Content-Type: application/json

{
"contents": [{"parts":[{"text": "ваш промпт"}]}],
"safety_settings": [
{"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_ONLY_HIGH"},
{"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_ONLY_HIGH"}
]
}

Доступные пороги

Google предусмотрел четыре уровня фильтрации, которые можно применить к любой категории:

BLOCK_LOW_AND_ABOVE — самая жёсткая фильтрация, блокирует даже намёки
BLOCK_MEDIUM_AND_ABOVE — дефолтное значение для большинства моделей
BLOCK_ONLY_HIGH — разрешает средне-рискованный контент, блокирует только очевидный
BLOCK_NONE — фильтр отключён, применимо только при подтверждённом enterprise-доступе

HarmCategory: полный список после апрельского обновления

С апреля 2026 разработчикам доступны следующие категории модерации:

HARM_CATEGORY_HARASSMENT — травля, оскорбления в адрес личности
HARM_CATEGORY_HATE_SPEECH — язык вражды по защищённым признакам
HARM_CATEGORY_SEXUALLY_EXPLICIT — эротический и сексуальный контент
HARM_CATEGORY_DANGEROUS_CONTENT — инструкции по причинению вреда
HARM_CATEGORY_CIVIC_INTEGRITY — новая категория, связанная с дезинформацией о выборах
HARM_CATEGORY_MEDICAL_SENSITIVE — новая подкатегория, позволяет тоньше настраивать медконтент
HARM_CATEGORY_LEGAL_SENSITIVE — новая категория для юридического контента

Важный нюанс: даже при BLOCK_NONE остаётся «аварийный» фильтр Google, который блокирует контент, нарушающий законы США и запрещённые категории (например, CSAM). Его отключить нельзя — и это правильно.

Что стало возможным: реальные сценарии

Разберём, какие типы приложений выиграли от обновлений и какие настройки им подходят.

Медицинский AI-ассистент

Сервис, помогающий врачам разбирать клинические случаи и подбирать дозировки, раньше получал отказы при упоминании сильнодействующих препаратов. Теперь рекомендуемая конфигурация:

HARM_CATEGORY_MEDICAL_SENSITIVE — BLOCK_ONLY_HIGH
HARM_CATEGORY_DANGEROUS_CONTENT — BLOCK_MEDIUM_AND_ABOVE
HARM_CATEGORY_SEXUALLY_EXPLICIT — BLOCK_LOW_AND_ABOVE (не нужно для профессионального инструмента)

Такая настройка позволяет модели обсуждать фармакодинамику, взаимодействие лекарств и клинические протоколы без постоянных отказов, но при этом блокирует попытки получить инструкции, которые могут быть использованы вне медицинского контекста.

LegalTech и юридический поиск

Сервисы, которые разбирают уголовные дела, цитируют законодательство и готовят черновики процессуальных документов, теперь могут использовать:

HARM_CATEGORY_LEGAL_SENSITIVE — BLOCK_ONLY_HIGH
HARM_CATEGORY_DANGEROUS_CONTENT — BLOCK_ONLY_HIGH
HARM_CATEGORY_HARASSMENT — BLOCK_MEDIUM_AND_ABOVE

Это решает ключевую боль: разбор статей УК без автоматических отказов, цитирование судебной практики, анализ спорных кейсов.

Юристам стали доступны более детальные разборы уголовных дел через Gemini

Security и cyber research

Пентестеры и исследователи уязвимостей получили возможность обсуждать CVE, разбирать malware-образцы и генерировать PoC в образовательных целях:

HARM_CATEGORY_DANGEROUS_CONTENT — BLOCK_ONLY_HIGH
HARM_CATEGORY_HATE_SPEECH — BLOCK_MEDIUM_AND_ABOVE

Google отдельно подчёркивает: такая настройка допустима для авторизованных security-программ с подтверждённой аффилиацией. Bug bounty платформы и корпоративные red team теперь могут интегрировать Gemini напрямую.

Креативная литература

Писатели и сервисы вроде Sudowrite-клонов давно просили уменьшить блокировки при описании конфликтов. Конфигурация для fiction-платформ:

HARM_CATEGORY_DANGEROUS_CONTENT — BLOCK_ONLY_HIGH
HARM_CATEGORY_HARASSMENT — BLOCK_ONLY_HIGH
HARM_CATEGORY_SEXUALLY_EXPLICIT — BLOCK_MEDIUM_AND_ABOVE (или BLOCK_ONLY_HIGH для adult-платформ с возрастной верификацией)

Это позволяет создавать реалистичные диалоги злодеев, сцены сражений, эмоциональные конфликты — всё то, что делает литературу литературой.

Ограничения и красные линии

Несмотря на гибкость, есть категории и сценарии, которые Google не передвинет ни при каких настройках. Разработчикам важно понимать эти границы, чтобы не получить бан аккаунта.

Что не изменится

Контент с участием несовершеннолетних в сексуальном контексте (CSAM) — постоянная блокировка на уровне модели
Инструкции по созданию оружия массового поражения (биологического, химического, ядерного)
Контент, направленный на подстрекательство к насилию против конкретных людей
Материалы, нарушающие экспортный контроль США (ITAR, EAR)

Требования для BLOCK_NONE

Чтобы получить возможность устанавливать BLOCK_NONE для таких категорий, как DANGEROUS_CONTENT или SEXUALLY_EXPLICIT, разработчик должен:

Иметь verified Google Cloud аккаунт с подтверждённой платёжной информацией
Подать заявку на enterprise-ревью через форму в Vertex AI
Подписать Acceptable Use Policy с указанием конкретного use case
Внедрить возрастную верификацию для пользователей (для adult-контента)
Вести логирование промптов и ответов для аудита

Без прохождения ревью попытка установить BLOCK_NONE приведёт либо к игнорированию параметра, либо к блокировке ключа при массовом использовании.

Сравнение с другими API

Чтобы понимать место Gemini на рынке после обновлений, сравним его с конкурентами.

OpenAI (GPT-5)

OpenAI использует другой подход: у них нет гранулярного safety_settings, но есть moderation API и system-prompt guidance. В результате GPT-5 считается более «разговорчивым» на сложные темы из коробки, но менее предсказуемым — разработчик не может гарантировать, что конкретная категория будет всегда пропускаться или блокироваться.

Anthropic Claude 4

Claude традиционно занимает срединную позицию: более либерален, чем Gemini до обновлений, но строже GPT-5 по некоторым категориям. У Claude нет параметров вроде safety_settings — его поведение задаётся через Constitutional AI и системный промпт. После апрельских изменений Gemini обошёл Claude по гибкости для enterprise-use.

DeepSeek и open-source модели

DeepSeek R1 и Llama-based модели остаются самыми свободными в настройке, но имеют свои ограничения: китайская модель DeepSeek цензурирует политические темы, связанные с КНР, а open-source модели требуют self-hosting и дорогой инфраструктуры.

Сравнение политик модерации Gemini, GPT-5, Claude 4 и DeepSeek

Практические проблемы и как их решать

Даже после обновлений разработчики сталкиваются с типичными сложностями. Разберём самые частые.

Проблема: модель возвращает пустой ответ с finish_reason = SAFETY

Это означает, что сработал фильтр, несмотря на настройки. Причины:

Установленный порог недостаточно высок для конкретного контента
Срабатывает неотключаемая категория (CSAM, WMD)
Аккаунт не прошёл enterprise-ревью для BLOCK_NONE

Решение: проанализировать массив safety_ratings в ответе — он показывает, какая конкретно категория сработала и с какой вероятностью. На основе этого можно либо скорректировать промпт, либо подать заявку на ревью для конкретной категории.

Проблема: ответы «размываются» при слабых фильтрах

Интересный побочный эффект BLOCK_NONE: модель может начать добавлять оговорки и отказы в тексте ответа, даже если формально не блокирует. Это следствие RLHF-обучения. Решение — более точный system prompt, указывающий роль и контекст ассистента.

Проблема: разные модели по-разному реагируют на одни настройки

До апреля 2026 это было серьёзной болью. Сейчас Google унифицировал поведение между Gemini 3 Pro, Flash и Ultra, но старые snapshot-версии (например, gemini-1.5-pro-002) могут реагировать иначе. Рекомендация: мигрировать на актуальные версии.

Юридический аспект для российских разработчиков

Отдельный вопрос — легальность использования Gemini API из России. Google формально не обслуживает российские аккаунты с 2022 года, оплата напрямую невозможна. При этом API остаётся технически доступным через зарубежные юрлица и прокси-сервисы.

Варианты доступа

Юрлицо в дружественной юрисдикции — Казахстан, Армения, Грузия, ОАЭ. Требует регистрации компании и банковского счёта
Прокси-сервисы типа OpenRouter или AIML API — работают как посредники, принимают рублёвую оплату
Российские агрегаторы вроде WebGPT (ask.gptweb.ru) — предоставляют доступ к Gemini и другим моделям через единый интерфейс с оплатой в рублях

Для задач тестирования промптов, исследования возможностей новых safety_settings и прототипирования разработчикам удобно использовать WebGPT — это позволяет быстро понять, как модель реагирует на запросы, без возни с VPN и международными платёжными системами. Когда проект доходит до продакшена, можно переходить на прямую интеграцию через зарубежное юрлицо.

Вопрос персональных данных

При работе с Gemini API через любые посредники российские разработчики должны помнить о ФЗ-152: передача персональных данных российских пользователей в США требует соответствующих оснований. Практическое решение — обезличивание данных перед отправкой в API и использование Gemini только для обработки неперсонального контента (тексты, документы без ПДн).

Российские команды всё чаще выбирают агрегаторы для работы с иностранными AI-API

Что дальше: прогноз на вторую половину 2026

По утечкам из Google I/O и заявлениям на Gemini Developer Day можно предположить следующее развитие событий.

Ожидаемые обновления

Per-user safety_settings — возможность задавать разные пороги для разных сегментов пользователей в рамках одного API-ключа
Контекстная модерация — модель будет учитывать весь диалог, а не только последний промпт
Обжалование блокировок в реальном времени — API-эндпоинт, который позволит запросить пересмотр срабатывания фильтра
Региональные профили — разные дефолтные настройки для разных стран, учитывающие местное законодательство

Риски и возможные откаты

Не стоит забывать, что политика Google может и ужесточаться. Триггерами отката могут стать:

Громкий инцидент с использованием Gemini в противоправных целях
Новое регулирование в ЕС (AI Act набирает обороты) или США
Давление инвесторов после PR-скандалов

Разработчикам стоит закладывать в архитектуру возможность быстрой перенастройки safety_settings и смены модели. Универсальный подход: выносить выбор модели в конфиг и использовать абстракцию поверх разных API.

Чек-лист для разработчика

Подведём практические итоги того, что нужно сделать, если вы работаете с Gemini API в 2026 году и хотите использовать новые возможности.

Обновите SDK до последней версии @google/generative-ai или google-cloud-aiplatform
Перейдите на модели gemini-3-pro или gemini-3-flash — старые версии не поддерживают новые HarmCategory
Проведите аудит текущих настроек safety_settings: возможно, часть категорий можно смягчить без ущерба безопасности
Добавьте логирование safety_ratings для каждого ответа — это поможет понять, какие фильтры реально срабатывают
Если вы работаете в регулируемой индустрии (медицина, право, security) — подайте заявку на enterprise-ревью
Протестируйте промпты и настройки через WebGPT до того, как интегрировать в продакшен — это сэкономит токены и нервы
Опишите в пользовательском соглашении вашего сервиса, какие категории контента вы пропускаете и зачем
Настройте мониторинг finish_reason в ответах — это главный индикатор качества настроек

Заключение

Апрельские обновления Gemini API — это не «разрешение на обход цензуры», а зрелый шаг Google навстречу профессиональным разработчикам. Новые HarmCategory и гибкие пороги фильтрации позволяют строить медицинские, юридические, security и креативные приложения без постоянных ложных срабатываний. При этом принципиально важные ограничения — защита детей, оружие массового поражения, подстрекательство к насилию — остаются незыблемыми.

Для российских команд ключевой момент — выбор надёжного канала доступа. Пока прямая оплата Google Cloud из России невозможна, агрегаторы вроде WebGPT (ask.gptweb.ru) дают быстрый и удобный способ тестировать новые возможности, сравнивать модели и прототипировать решения. Это особенно актуально, когда нужно оперативно проверить, как настройки safety_settings влияют на качество ответов в вашем конкретном сценарии.

Рынок AI-API будет и дальше двигаться в сторону гранулярности и профессиональной конфигурируемости. Разработчики, которые научатся грамотно работать с фильтрами модерации уже сейчас, получат конкурентное преимущество — они смогут создавать продукты, которые раньше были невозможны из-за технических ограничений моделей.

Gemini API и safety_settings: что изменилось для разработчиков в 2026 году