Пользователи языковых моделей всё чаще задаются вопросом: что происходит с текстом, который они вводят в ChatGPT, Claude или GigaChat? Масштабный разбор на Хабре, опубликованный компанией RUVDS, показал — промпты не исчезают после ответа модели. Они сохраняются, анализируются людьми-модераторами, используются для обучения следующих версий моделей и при необходимости передаются государственным органам. Для пользователей из России и СНГ это особенно актуально: данные физически покидают юрисдикцию и попадают под действие иностранного законодательства. В этой статье разбираем, какие именно риски существуют, что говорят политики конфиденциальности ведущих LLM-провайдеров и как минимизировать утечку чувствительной информации.
Что произошло и почему об этом заговорили?
25 мая 2026 года на Хабре вышла подробная статья RUVDS о том, куда уходят промпты пользователей LLM — материал быстро набрал более 12 000 просмотров и вышел в топ платформы. Автор систематизировал политики конфиденциальности шести крупнейших LLM-сервисов: OpenAI, Google, Anthropic, DeepSeek, Alibaba (Qwen) и Сбера (GigaChat).
Главный вывод: ни один из облачных сервисов не гарантирует полной приватности диалогов. Разница лишь в степени открытости и в том, под чью юрисдикцию попадают ваши данные.
«We may use Content you provide us to improve our Services, for example to train the models that power ChatGPT» — формулировка из политики конфиденциальности OpenAI, которая прямо разрешает использование пользовательского контента для обучения моделей.
Аналогичные пункты есть у каждого провайдера. Google прямо указывает, что отдельные чаты Gemini проверяются специалистами и подрядчиками компании. А GigaChat от Сбера оговаривает передачу данных «уполномоченным государственным органам в соответствии с законодательством РФ» — и это, по условиям сервиса, «не является нарушением конфиденциальности».
Какие именно риски угрожают пользователям ИИ?
Статья на Хабре выделяет несколько ключевых векторов угроз. Разберём каждый подробнее.
Обучение на ваших данных
Когда вы отправляете промпт в облачную LLM, текст может стать частью обучающей выборки для следующей версии модели. Это означает, что фрагменты вашего кода, бизнес-логики или корпоративной переписки потенциально «впечатываются» в веса нейросети. Извлечь их оттуда точечно — невозможно.
Особенно критично это для разработчиков, использующих ИИ-ассистенты кодирования вроде Cursor или Claude Code. Проприетарные алгоритмы, API-ключи, внутренние схемы баз данных — всё это может оказаться в тренировочном датасете.
Доступ живых модераторов
Все крупные провайдеры используют ручную модерацию для улучшения качества ответов и фильтрации нежелательного контента. Это означает, что реальные люди — часто подрядчики из разных стран — читают ваши диалоги. По данным исследования RUVDS на Хабре, масштаб такой модерации у каждого провайдера различается, но полностью исключить человеческий фактор не удалось никому.
Передача данных государственным органам
Каждый LLM-сервис работает в правовом поле своей юрисдикции:
- OpenAI и Anthropic — подчиняются американскому Cloud Act, который позволяет правоохранительным органам США запрашивать данные пользователей, включая иностранных
- DeepSeek и Qwen — работают под китайским законодательством о кибербезопасности, которое предоставляет властям практически неограниченный доступ к данным
- GigaChat — передаёт информацию по запросам российских госорганов в рамках 152-ФЗ
Для пользователей из России и СНГ это создаёт парадоксальную ситуацию. Работая с американскими или китайскими моделями, вы отправляете данные за пределы страны. Работая с российским GigaChat — остаётесь под контролем местных регуляторов. Идеального варианта нет.
Географическая миграция данных
Промпт, отправленный из Москвы в ChatGPT, физически проходит через серверы в США. Запрос к DeepSeek — через Китай. Даже если провайдер обещает не использовать данные для обучения, сам факт трансграничной передачи создаёт регуляторные и безопасностные риски.
Важный нюанс из статьи RUVDS: в отличие от обычных веб-страниц, которые можно точечно заблокировать по URL, данные, «зашитые» в веса модели, невозможно селективно удалить или заблокировать. Регуляторы не могут контролировать то, что уже стало частью нейросети.
Почему это особенно важно для пользователей в России?
Российские пользователи ИИ находятся в уникальном положении. С одной стороны, доступ ко многим западным сервисам ограничен или затруднён. С другой — потребность в мощных языковых моделях для работы только растёт.
Вот ключевые факторы, которые делают проблему актуальной именно для российской аудитории:
- Двойной регуляторный прессинг. Российский 152-ФЗ о персональных данных требует хранения данных на территории РФ, но большинство LLM-сервисов обрабатывают запросы за рубежом
- Ограниченный выбор. Из полностью российских решений массово доступен только GigaChat, а его возможности уступают GPT-4o и Claude в ряде задач
- Корпоративное использование. Российский бизнес всё активнее внедряет ИИ, часто без осознания рисков передачи коммерческой тайны через облачные API
- Отсутствие прозрачности. Многие пользователи даже не читают условия использования сервисов и не подозревают, что их промпты могут быть прочитаны людьми
Платформы-агрегаторы вроде WebGPT решают часть проблемы, предоставляя единый интерфейс для доступа к разным моделям — ChatGPT, Claude, Gemini, DeepSeek — без необходимости создавать отдельные аккаунты в каждом сервисе. Это упрощает управление данными: вместо разрозненных историй в шести сервисах — один контролируемый канал доступа.
Что говорят политики конфиденциальности ведущих сервисов?
Сравним подходы основных LLM-провайдеров к данным пользователей.
OpenAI (ChatGPT)
По умолчанию OpenAI использует ваши диалоги для обучения моделей. Отключить это можно в настройках — раздел «Data Controls» → «Improve the model for everyone». Также доступен режим Temporary Chat, в котором история не сохраняется. Однако даже при отключённом обучении OpenAI сохраняет логи для мониторинга злоупотреблений на срок до 30 дней.
Anthropic (Claude)
Anthropic занимает более сдержанную позицию. Компания заявляет, что данные платных подписчиков (Pro, Team, Enterprise) не используются для обучения моделей по умолчанию. Бесплатный тариф — используется, если пользователь не отказался явно. При этом Anthropic публикует подробную политику конфиденциальности, в которой описывает категории собираемых данных.
Google (Gemini)
Google прямо указывает, что «некоторые чаты проверяются специалистами Google и поставщиками услуг для улучшения моделей Gemini». Это одна из самых откровенных формулировок среди крупных провайдеров. Отключить сбор данных можно через настройки активности аккаунта Google.
DeepSeek
Китайский провайдер собирает данные в соответствии с законодательством КНР. Политика конфиденциальности менее детальна, чем у западных конкурентов. По данным разбора на Хабре, основные риски связаны с неограниченным доступом китайских госорганов к серверам компании.
Сбер (GigaChat)
Единственный крупный провайдер, работающий полностью в российской юрисдикции. Данные хранятся на территории РФ, что соответствует 152-ФЗ. Но при этом условия явно предусматривают передачу информации «уполномоченным государственным органам». Для корпоративных клиентов доступны изолированные развёртывания.
Как защитить свои данные при работе с LLM?
Полностью исключить риски при использовании облачных LLM невозможно. Но можно существенно их снизить. Вот конкретные шаги, ранжированные от простых к радикальным.
Базовые меры (5 минут)
- Отключите обучение на ваших данных. В ChatGPT: Settings → Data Controls → снимите галку «Improve the model for everyone». В Claude: аналогичная настройка в разделе Privacy
- Используйте временные чаты. Режим Temporary Chat в ChatGPT не сохраняет историю и не передаёт данные для обучения
- Не вставляйте реальные данные. Замените имена на «Сотрудник_1», названия компаний на «Проект_X», финансовые показатели на «[ДАННЫЕ_ВЫРУЧКИ]»
Продвинутые меры (для бизнеса)
- Ограничьте доступ агентов к файлам. Если используете ИИ-ассистенты для кодирования, не давайте им доступ к файлам с API-ключами, конфигурациями баз данных и секретами
- Разделяйте контексты. Не смешивайте личные и рабочие запросы в одном аккаунте. Для корпоративных задач используйте отдельную учётную запись
- Аудируйте промпты. Перед отправкой перечитайте текст глазами безопасника: есть ли там что-то, что не должно покинуть периметр компании?
Радикальные меры (максимальная приватность)
Для задач, связанных с коммерческой тайной, медицинскими данными или государственной информацией, единственный надёжный путь — локальное развёртывание:
- Ollama — простой способ запустить открытые модели (Llama 3, Mistral, Qwen) на своём сервере
- LM Studio — десктопное приложение для работы с локальными LLM на macOS, Windows и Linux
- AnythingLLM — платформа для создания корпоративных чат-ботов на базе локальных моделей
Локальные модели уступают облачным по качеству ответов, но зато данные гарантированно не покидают ваш сервер. Для многих рутинных задач — суммаризация, рерайт, простой код — этого достаточно.
Как совмещать приватность и доступ к лучшим моделям?
На практике большинство пользователей не готовы полностью перейти на локальные модели. GPT-4o, Claude Opus и Gemini по-прежнему значительно превосходят открытые аналоги в сложных задачах — анализе документов, генерации кода, работе с мультиязычным контентом.
Разумный подход — гибридная стратегия:
- Классифицируйте задачи по чувствительности. Общие вопросы, обучение, творческие задачи — облачные модели. Корпоративные документы, персональные данные — локальные
- Используйте агрегаторы. Через WebGPT можно переключаться между моделями разных провайдеров, выбирая оптимальный баланс между качеством и приватностью для каждой конкретной задачи
- Анонимизируйте перед отправкой. Выработайте привычку заменять конфиденциальные данные плейсхолдерами — это занимает 30 секунд, но снижает риск на порядок
Важно понимать: проблема не в том, что LLM-сервисы «злые». Они работают в рамках бизнес-модели, которая предполагает использование данных. Задача пользователя — осознанно управлять тем, какие именно данные он передаёт.
Что ждёт рынок дальше?
Тренд на приватность в ИИ набирает обороты. Вот что мы видим на горизонте:
- Ужесточение регулирования. Евросоюз уже принял AI Act, Россия разрабатывает аналогичное законодательство. Требования к прозрачности обработки данных в LLM будут расти
- Рост open-source моделей. Llama 3, Mistral, Qwen и другие открытые модели быстро сокращают разрыв с проприетарными решениями. Через 1-2 года локальное развёртывание станет жизнеспособной альтернативой для большинства задач
- Корпоративные решения. Все крупные провайдеры уже предлагают изолированные облачные инстансы для бизнеса — OpenAI Enterprise, Claude Enterprise, GigaChat Enterprise
- Технологии конфиденциальных вычислений. Гомоморфное шифрование, TEE (Trusted Execution Environments) и федеративное обучение могут в будущем позволить работать с облачными моделями без раскрытия данных
Пока эти технологии не стали массовыми, ответственность за защиту данных лежит на самих пользователях. Начните с простого: откройте настройки ChatGPT и отключите обучение на ваших данных. Это займёт 30 секунд.
Полезные ресурсы
Если хотите глубже разобраться в теме:
- Полный разбор политик конфиденциальности LLM-провайдеров на Хабре — исходная статья с подробным анализом каждого сервиса
- Политика конфиденциальности Anthropic — один из наиболее прозрачных документов в отрасли
- Политика конфиденциальности OpenAI — описывает, как компания собирает и использует данные
- Наш гайд по безопасной работе с ИИ-инструментами — практические советы для повседневного использования
- Обзор локальных LLM для бизнеса — сравнение Ollama, LM Studio и AnythingLLM
Часто задаваемые вопросы
Могут ли мои промпты попасть в обучающую выборку ChatGPT?
Да, если вы не отключили эту функцию в настройках. По умолчанию OpenAI использует диалоги для улучшения моделей. Перейдите в Settings → Data Controls и снимите галку «Improve the model for everyone». После этого ваши данные не будут использоваться для обучения, но могут сохраняться до 30 дней для мониторинга злоупотреблений.
Какой LLM-сервис самый безопасный с точки зрения приватности?
Однозначного ответа нет — зависит от вашей модели угроз. Anthropic (Claude) имеет наиболее сдержанную политику для платных пользователей. GigaChat хранит данные в России, что важно для соответствия 152-ФЗ. Максимальную приватность обеспечивают только локальные модели — Ollama, LM Studio и подобные. В WebGPT доступны модели разных провайдеров, что позволяет выбирать подходящую для каждой задачи.
Безопасно ли использовать ИИ для написания кода с API-ключами?
Нет. Никогда не вставляйте реальные API-ключи, токены доступа или пароли в промпты облачных LLM. Замените их плейсхолдерами: «YOUR_API_KEY», «[TOKEN]». Если используете ИИ-ассистенты кодирования вроде Cursor, ограничьте их доступ к файлам с секретами (.env, credentials.json).
Читают ли люди мои диалоги с ChatGPT и Claude?
Да, все крупные провайдеры используют ручную модерацию. Google прямо указывает, что «некоторые чаты проверяются специалистами Google и поставщиками услуг». Anthropic и OpenAI также привлекают подрядчиков для оценки качества ответов. Масштаб проверки неизвестен, но вероятность того, что ваш конкретный диалог прочитает человек, отлична от нуля.
Могу ли я запросить удаление своих данных у LLM-провайдера?
Большинство провайдеров предоставляют механизмы для удаления истории чатов. OpenAI позволяет удалить всю историю через настройки. Anthropic принимает запросы на удаление данных через email. Однако если ваши данные уже попали в обучающую выборку и стали частью весов модели, извлечь их оттуда технически невозможно.