26 мая 2026 года инженер Google Иньгуан Чжао (Yinguang Zhao) опубликовал на рассылке blink-dev официальный Intent to Prototype для нового Embedding API в Chromium — веб-стандарта, который позволит разработчикам генерировать векторные представления (эмбеддинги) текста прямо на устройстве пользователя, используя встроенные ИИ-модели браузера. Это означает семантический поиск, RAG-системы и модерацию контента без единого запроса к облаку. В этой статье разбираем, что именно предлагает Google, почему это меняет правила игры для веб-разработчиков и какие последствия ждут пользователей ИИ-инструментов в России и СНГ.
Что такое Embedding API и зачем он нужен?
Эмбеддинги — это числовые векторы, которые отражают смысл текста. Два похожих по смыслу предложения будут иметь близкие векторы, даже если написаны разными словами. Эта технология лежит в основе семантического поиска, рекомендательных систем и RAG (Retrieval-Augmented Generation) — подхода, при котором ИИ сначала находит релевантные документы, а потом формирует ответ на их основе.
До сих пор для получения эмбеддингов разработчикам приходилось выбирать из двух неидеальных вариантов:
- Облачные API (OpenAI Embeddings, Cohere, Google Vertex AI) — быстро подключаются, но создают задержку, стоят денег и требуют отправки данных на внешний сервер
- Локальные модели через WebAssembly/WebGPU — работают на устройстве, но каждый сайт вынужден скачивать собственную модель весом в сотни мегабайт
Embedding API решает обе проблемы: браузер предоставляет единую оптимизированную модель, которая используется всеми сайтами совместно. Никаких лишних скачиваний, никаких облачных запросов.
Как это работает технически?
API следует трёхшаговому паттерну, уже знакомому по другим браузерным ИИ-функциям Chrome: проверка доступности → создание экземпляра → выполнение.
Вот минимальный пример кода из официального explainer-документа Google на GitHub:
// Проверяем, доступен ли API if (!SemanticEmbedder || (await SemanticEmbedder.availability()) === "unavailable") { return; }// Создаём экземпляр эмбеддера const embedder = await SemanticEmbedder.create();
// Генерируем эмбеддинг const result = await embedder.embed("Текст для анализа");
Ключевые технические характеристики:
- Интерфейс:
SemanticEmbedder(название выбрано, чтобы не путать с HTML-элементом<embed>) - Вход: одна строка или массив строк (батч-обработка)
- Выход: объект
EmbedderResultс массивомFloat32Array— многомерные числовые векторы - Лимит: до 2048 токенов на вход
- Модели: начальные прототипы будут использовать открытые модели — EmbeddingGemma или Qwen3Embedding
Почему это важно для пользователей ИИ в России и СНГ?
Для российских пользователей и разработчиков этот стандарт имеет особое значение по нескольким причинам.
Независимость от облачных API
Доступ к зарубежным ИИ-сервисам из России ограничен: OpenAI, Anthropic и Google официально не работают с российскими аккаунтами. Embedding API переносит вычисления на устройство пользователя — никаких ограничений по геолокации, никаких блокировок, никакой зависимости от VPN.
Приватность данных
Как указано в спецификации: «Исходный текст остаётся на устройстве. Эмбеддинги генерируются локально». Для пользователей, работающих с конфиденциальными документами — юристов, врачей, бизнес-аналитиков — это принципиально. Данные не покидают браузер.
Нулевая стоимость
Облачные эмбеддинги стоят денег. Даже относительно дешёвые API вроде OpenAI text-embedding-3-small обходятся в $0.02 за миллион токенов. При активном использовании в RAG-системах или поиске по большим коллекциям документов суммы растут. Браузерный API будет бесплатным.
Это особенно актуально для разработчиков, которые создают инструменты для российского рынка через агрегаторы вроде WebGPT (ask.gptweb.ru), где уже сейчас можно работать с ChatGPT, Claude и другими моделями. Встроенные эмбеддинги дополнят облачную генерацию локальным семантическим поиском.
Какие сценарии использования открываются?
В предложении на площадке Web Machine Learning Community Group выделены три основных сценария:
1. Семантический поиск
Представьте заметочное приложение, которое находит нужную запись не по точному совпадению слов, а по смыслу. Ищете «расходы на командировку» — находите заметку «авиабилеты и гостиница для поездки в Казань». Полностью оффлайн, полностью приватно.
2. RAG на стороне клиента
Самый перспективный сценарий. Веб-приложение может:
- Проиндексировать локальные документы пользователя, сохранив эмбеддинги в IndexedDB
- При вопросе — найти релевантные фрагменты через косинусное сходство
- Отправить только эти фрагменты (не все документы) в облачную LLM для генерации ответа
Это радикально снижает объём данных, отправляемых в облако, и повышает качество ответов за счёт точного контекста.
3. Модерация контента в реальном времени
Чат-приложения и форумы смогут оценивать семантическую близость комментариев к эталонам вредоносного контента прямо в браузере — без задержки на сетевой запрос и без необходимости отправлять каждое сообщение на сервер.
Как это вписывается в стратегию Google по «AI в браузере»?
Embedding API — не изолированная инициатива. Google последовательно встраивает ИИ-возможности в Chrome через серию стандартизированных API:
- Prompt API — доступ к встроенной языковой модели (Gemini Nano) для генерации текста
- Summarizer API — автоматическое создание саммари
- Writer / Rewriter API — генерация и переработка текста
- Translator API — перевод на стороне клиента
- Language Detector API — определение языка
Embedding API дополняет эту экосистему критически важным элементом. Без эмбеддингов невозможно построить полноценную RAG-систему, а значит — все остальные API теряют часть потенциала. Именно эмбеддинги связывают генеративные модели с данными пользователя.
По данным спецификации, API будет выполняться в изолированной песочнице, доступ будет ограничен верхнеуровневыми фреймами через Permissions Policy. Это значит, что рекламные iframe и сторонние виджеты не смогут использовать эмбеддинги без явного разрешения.
Какие модели будут использоваться?
В explainer-документе указано: «Начальные прототипы API должны использовать пространства, доступные из open-weight моделей, таких как EmbeddingGemma или Qwen3Embedding, для максимальной совместимости».
Это важный выбор. Google не привязывает API к своим проприетарным моделям, а отдаёт предпочтение открытым решениям:
- EmbeddingGemma — модель из семейства Gemma от Google, оптимизированная для генерации эмбеддингов
- Qwen3Embedding — модель от Alibaba Cloud, показывающая отличные результаты на бенчмарках MTEB
Открытые модели означают, что другие браузеры (Firefox, Edge, Yandex Browser) теоретически смогут реализовать совместимую версию API, используя те же или аналогичные модели.
Однако здесь кроется одна из ключевых нерешённых проблем: если Chrome использует EmbeddingGemma, а Firefox — другую модель, эмбеддинги будут несовместимы. Один и тот же текст даст разные векторы в разных браузерах, и сохранённые в IndexedDB эмбеддинги станут бесполезны при смене браузера.
Когда это станет доступно?
Статус предложения — Intent to Prototype. Это самый первый этап в процессе стандартизации Chromium. Впереди:
- Prototype (текущий этап) — реализация экспериментального кода за флагом в Chrome Canary
- Dev Trial — тестирование разработчиками, сбор обратной связи
- Origin Trial — ограниченное развёртывание на реальных сайтах
- Intent to Ship — включение по умолчанию в стабильной версии Chrome
Реалистичный прогноз: прототип может появиться в Chrome Canary в ближайшие 2-3 месяца, а до стабильного релиза пройдёт, скорее всего, от 6 до 12 месяцев — то есть не раньше конца 2026 — начала 2027 года.
Но уже сейчас разработчики могут готовиться: изучать API, проектировать архитектуру приложений с учётом локальных эмбеддингов, тестировать аналогичную функциональность через WebAssembly-решения.
Что это значит для WebGPT и ИИ-агрегаторов?
Для платформ вроде WebGPT (ask.gptweb.ru) появление браузерных эмбеддингов открывает интересные перспективы. Сейчас пользователи WebGPT работают с облачными моделями — ChatGPT, Claude, Gemini, DeepSeek — через единый интерфейс. Embedding API может дополнить этот опыт:
- Локальный поиск по истории чатов — находить нужный диалог по смыслу, а не по ключевым словам
- Подбор контекста для промптов — автоматически прикреплять релевантные фрагменты из предыдущих разговоров
- Оффлайн-классификация — сортировать и группировать сохранённые ответы без обращения к серверу
При этом генерация текста по-прежнему будет идти через облачные модели — локальные эмбеддинги отвечают только за поиск и сопоставление, не за генерацию.
Какие риски и ограничения стоит учитывать?
Несмотря на привлекательность идеи, у Embedding API есть ряд серьёзных вопросов, которые пока не решены.
Межбраузерная совместимость
Как отмечено в спецификации, стандартизация «пространства эмбеддингов» между браузерами — открытая проблема. Если каждый вендор выберет свою модель, разработчикам придётся хранить эмбеддинги с метаданными модели и пересчитывать их при смене браузера.
Требования к оборудованию
On-device inference требует вычислительных ресурсов. На мобильных устройствах и бюджетных ноутбуках генерация эмбеддингов может быть медленной или вообще недоступной. API предусматривает проверку availability(), но это означает, что часть пользователей просто не получит доступ к функции.
Размер модели
Даже компактная модель эмбеддингов занимает 100-500 МБ. Chrome придётся скачать её заранее — это расход трафика и дискового пространства. Для пользователей с мобильным интернетом или ограниченным SSD это может быть проблемой.
Только Chromium
На данный момент предложение исходит от Google и реализуется в Blink (движке Chromium). Firefox и Safari могут не поддержать его или предложить альтернативный API. Это создаёт риск фрагментации веб-платформы.
Что делать прямо сейчас?
Хотя API ещё далёк от продакшена, уже сейчас можно предпринять конкретные шаги:
Для разработчиков:
- Изучить explainer-документ Embedding API на GitHub и оставить обратную связь в issues
- Подписаться на обсуждение предложения в Web Machine Learning CG
- Протестировать аналогичную функциональность через transformers.js или onnxruntime-web — это даст понимание паттернов, которые потом перенесутся на нативный API
- Проектировать хранилища эмбеддингов (IndexedDB) с метаданными модели — чтобы быть готовыми к смене версий
Для пользователей ИИ-инструментов:
- Следить за обновлениями Chrome Canary — первый прототип может появиться уже летом 2026
- Уже сейчас пользоваться семантическими возможностями облачных моделей через WebGPT — когда браузерные эмбеддинги станут доступны, переход будет бесшовным
- Обратить внимание на приложения, которые заявляют поддержку оффлайн-поиска — это первые кандидаты на интеграцию с Embedding API
Контекст: on-device AI как тренд 2026 года
Embedding API появляется не в вакууме. 2026 год стал переломным для переноса ИИ-вычислений на устройства пользователей:
- Apple расширяет возможности on-device моделей в iOS 20 и macOS
- Qualcomm и MediaTek выпускают чипы с выделенными NPU для мобильных устройств
- Mozilla экспериментирует с локальными моделями в Firefox
- Microsoft интегрирует Phi-модели в Windows через Copilot Runtime
В этом контексте Google делает ставку на браузер как платформу для ИИ — и эмбеддинги являются одним из самых фундаментальных примитивов, необходимых для этой стратегии.
Для читателей нашего блога, которые следят за развитием ИИ-инструментов, мы продолжим отслеживать прогресс Embedding API. Следите за обновлениями в нашем обзоре браузерных ИИ-стандартов и материале о трендах on-device AI.
Часто задаваемые вопросы
Что такое эмбеддинги и зачем они нужны в браузере?
Эмбеддинги — это числовые векторы, которые кодируют смысл текста. Они позволяют искать по смыслу, а не по точному совпадению слов. Браузерная реализация означает, что эта возможность будет доступна любому веб-приложению без облачных API, без оплаты и без утечки данных на внешние серверы.
Будет ли Embedding API работать в Yandex Browser?
Yandex Browser построен на Chromium, поэтому технически он может получить поддержку Embedding API. Однако Yandex может выбрать собственную модель эмбеддингов или вообще не включать эту функцию. На момент публикации позиция Yandex по данному API не озвучена.
Можно ли уже сейчас использовать локальные эмбеддинги в браузере?
Да, через библиотеки вроде transformers.js и onnxruntime-web можно запускать модели эмбеддингов в браузере через WebAssembly или WebGPU. Но каждый сайт скачивает свою модель отдельно, и производительность ниже, чем у нативного API. Embedding API решит обе проблемы.
Заменит ли Embedding API облачные сервисы эмбеддингов?
Не полностью. Браузерный API ограничен 2048 токенами и использует компактные модели. Для обработки больших корпусов текста, серверных пайплайнов и задач, требующих максимального качества, облачные эмбеддинги (OpenAI, Cohere, Voyage AI) останутся предпочтительным вариантом.
Как это повлияет на приватность?
Положительно. Весь текст обрабатывается локально, на устройстве пользователя. Эмбеддинги генерируются в изолированной песочнице браузера. Ни исходный текст, ни результирующие векторы не отправляются на серверы Google или какие-либо другие серверы — если только сам веб-разработчик не реализует отправку явно.