Команда Hugging Face опубликовала исследование и серию бенчмарков под названием «Beyond LoRA», которые поставили под сомнение статус LoRA как метода дообучения нейросетей по умолчанию. Это означает, что у разработчиков и компаний появился набор проверенных альтернатив — OFT, DoRA, VeRA, LoRA-FA и других, — которые в ряде задач дают лучшую точность при меньшем расходе видеопамяти. По данным Hugging Face, 98,4% карточек моделей, где упоминается хоть один метод parameter-efficient fine-tuning (PEFT), ссылаются именно на LoRA, и эта монополия впервые получила объективное сравнение «в одинаковых условиях». В этой статье разбираем, что именно протестировали, почему LoRA не всегда выигрывает и какие практические выводы стоит сделать пользователям ИИ-инструментов.
Что произошло?
Hugging Face — компания, которая поддерживает крупнейший репозиторий открытых моделей и библиотеку peft — выкатила публичные бенчмарки, сравнивающие LoRA с менее известными методами дообучения. Идея простая: проверить, действительно ли LoRA настолько хороша, насколько массово её используют. Как отмечают авторы в официальном блоге Hugging Face о методах PEFT за пределами LoRA, доминирование одного метода стало скорее привычкой, чем результатом честного сравнения.
Цифры впечатляют: по данным Hugging Face, среди карточек моделей, упоминающих PEFT-технику, 98,4% указывают LoRA, а в сегменте генерации изображений до 95% всех опубликованных чекпойнтов — это именно LoRA-адаптеры. Фактически целая индустрия дообучения построена вокруг одного инструмента.
Главный вывод исследователей сформулирован прямо:
«LoRA не должна быть автоматическим выбором по умолчанию» при подборе техники дообучения. Переключение на альтернативный метод часто требует минимальных изменений в коде.
То есть речь не о том, что LoRA «плохая», а о том, что слепое использование одного метода для всех задач — упущенная возможность. Для разных сценариев — текст, изображения, длинные промпты — оптимальными оказываются разные подходы.
Коротко: что такое LoRA и зачем её дообучают
LoRA (Low-Rank Adaptation) — это способ дообучить огромную нейросеть, не трогая все её миллиарды параметров. Вместо этого к модели добавляют небольшие «надстройки» — низкоранговые матрицы, которые обучаются под конкретную задачу. Это резко снижает требования к видеопамяти и времени, поэтому метод и стал народным фаворитом.
- Полное дообучение (full fine-tuning) — меняем все веса модели. Максимум качества, но нужны десятки гигабайт GPU.
- LoRA — обучаем небольшие адаптеры. Дёшево, быстро, «достаточно хорошо».
- Альтернативные PEFT-методы — пытаются обойти LoRA по соотношению «качество/память» в конкретных нишах.
Какие альтернативы LoRA протестировали?
В бенчмарках Hugging Face фигурирует целое семейство методов, каждый из которых решает свою проблему LoRA. Ниже — основные участники сравнения и их сильные стороны.
OFT — ортогональное дообучение для картинок
OFT (Orthogonal Finetuning) показал себя особенно сильно в генерации изображений. По данным бенчмарка, OFT обошёл LoRA по метрике сходства (0,708 против 0,697) и при этом израсходовал меньше видеопамяти — 9,01 ГБ против 9,97 ГБ у LoRA. Для задач вроде персонализации Stable Diffusion это прямой аргумент в пользу OFT.
LoRA-FA, VeRA и DoRA — экономия памяти и качества
- LoRA-FA — вариант, который «замораживает» часть весов LoRA, снижая расход памяти на оптимизатор без потери качества.
- VeRA — использует общие случайные матрицы и обучает лишь крошечные векторы масштабирования, что радикально уменьшает число обучаемых параметров.
- DoRA — раскладывает веса на «величину» и «направление», догоняя по качеству полное дообучение там, где обычная LoRA отстаёт.
Lily, BEFT, GraLoRA и Cartridges
Бенчмарк включал и более экзотические методы. По данным Hugging Face, Lily достиг 54,9% точности на тесте (против 53,2% у LoRA), хотя и потребовал больше памяти — 25,6 ГБ. BEFT, наоборот, ужался до 20,2 ГБ ценой точности в 32,9%. Отдельно стоит Cartridges — метод, заточенный под сжатие длинных промптов, и GraLoRA, который можно конвертировать обратно в формат LoRA без потери качества.
Ключевая идея, которую авторы иллюстрируют через «границу Парето» (Pareto Frontier): несколько техник предлагают лучший баланс «точность к памяти», чем обычная LoRA. В тесте на генерации изображений LoRA вообще оказалась ниже этой границы эффективности — то есть для картинок были варианты объективно лучше.
Почему это важно для пользователей в России и СНГ?
На первый взгляд, дообучение моделей — тема для инженеров. Но она напрямую влияет на то, какие ИИ-инструменты и с каким качеством доступны обычному пользователю в России и СНГ. Чем дешевле и эффективнее дообучение, тем больше специализированных русскоязычных моделей могут позволить себе небольшие команды и стартапы — без доступа к дорогим западным облакам.
- Дефицит GPU. Из-за санкций доступ к топовым видеокартам в регионе ограничен. Методы вроде OFT и LoRA-FA, экономящие память, позволяют дообучать модели на более скромном железе.
- Локализация. Качественное дообучение под русский язык, юридическую или медицинскую терминологию становится дешевле — а значит, доступнее.
- Готовые модели. Пользователям WebGPT не нужно разбираться в этих методах вручную: дообученные и оптимизированные модели уже подключены к платформе. В WebGPT доступны актуальные версии ChatGPT, Claude, Gemini и DeepSeek, и через ask.gptweb.ru можно сравнить их ответы на одной задаче без VPN и зарубежной карты.
Иными словами, прогресс в методах дообучения — это «невидимый фундамент», на котором стоит доступность ИИ для русскоязычной аудитории. Мы подробно писали о том, как устроена работа с моделями в материале как выбрать ИИ-модель под задачу.
Как это повлияет на разработчиков и продукты?
Для команд, которые делают собственные ИИ-продукты, главный практический сигнал — перестать выбирать LoRA «на автопилоте». Hugging Face прямо указывает: смена метода в библиотеке peft часто означает изменение буквально пары строк кода, а выигрыш может составить и проценты точности, и гигабайты сэкономленной памяти.
- Генерация изображений — стоит протестировать OFT вместо LoRA: меньше памяти, выше сходство.
- Текстовые задачи с упором на качество — присмотреться к DoRA, которая ближе к полному дообучению.
- Жёсткий лимит по памяти — VeRA или LoRA-FA дадут максимальную экономию.
- Длинные промпты и контекст — посмотреть в сторону Cartridges.
При этом LoRA не уходит со сцены: она остаётся отличной «отправной точкой» и стандартом совместимости. Многие новые методы (как GraLoRA) специально проектируют так, чтобы их можно было сконвертировать обратно в LoRA-формат и использовать в существующей инфраструктуре.
Нужно ли пользователю что-то делать прямо сейчас?
Если вы не обучаете модели сами — нет. Все эти улучшения доходят до вас в виде более качественных и быстрых ответов готовых моделей. Достаточно пользоваться актуальными версиями: например, через WebGPT уже доступны последние модели Claude, GPT и Gemini, и платформа обновляет их по мере выхода. Если же вы разработчик — самое время заложить в пайплайн A/B-тест нескольких PEFT-методов вместо безусловной LoRA.
Что это говорит о зрелости индустрии ИИ?
Сам факт, что Hugging Face тратит ресурсы на честное сравнение методов, — признак взросления отрасли. На раннем этапе все хватались за то, что «просто работает». Теперь начинается этап оптимизации: за каждый процент точности и гигабайт памяти идёт борьба, а удобные «дефолты» проверяются на прочность.
Монополия одного метода в 98,4% случаев — это не доказательство его превосходства, а сигнал, что сообщество перестало искать альтернативы. Бенчмарки нужны именно для того, чтобы вернуть выбор.
Для русскоязычной аудитории это означает, что доступные ИИ-инструменты будут становиться дешевле в эксплуатации и точнее — а конкуренция методов в конечном счёте играет на руку конечному пользователю. Больше о трендах в дообучении и архитектуре моделей мы собираем в разделе актуальных новостей об ИИ за 2026 год.
Часто задаваемые вопросы
Что такое LoRA простыми словами?
LoRA (Low-Rank Adaptation) — это метод дообучения нейросети, при котором не меняют все её параметры, а добавляют небольшие обучаемые «надстройки». Это сильно экономит видеопамять и время. Именно поэтому LoRA стала самым популярным способом адаптировать большие модели под конкретные задачи.
Действительно ли альтернативы лучше LoRA?
Не во всём и не всегда. По бенчмаркам Hugging Face, в генерации изображений метод OFT обошёл LoRA и по точности, и по памяти, а ряд методов дал лучший баланс на «границе Парето». Но для многих текстовых задач LoRA остаётся отличным выбором по умолчанию. Вывод исследователей: метод нужно подбирать под задачу, а не использовать один на всё.
Повлияет ли это на привычные мне ИИ-чаты?
Напрямую вы ничего не заметите, но косвенно — да. Более эффективные методы дообучения удешевляют создание и улучшение моделей, что ускоряет их обновление и повышает качество. В готовых платформах вроде WebGPT (ask.gptweb.ru) эти улучшения приходят к вам автоматически с новыми версиями моделей.
Нужно ли мне разбираться в DoRA, VeRA и OFT?
Только если вы сами дообучаете модели. Обычному пользователю достаточно знать, что это конкурирующие методы оптимизации, и что индустрия активно ищет более эффективные альтернативы LoRA. Разработчикам же стоит протестировать несколько методов через библиотеку peft — переключение обычно требует минимальных правок кода.
Где почитать первоисточник?
Полное исследование с бенчмарками, графиками и кодом опубликовано в блоге Hugging Face о методах дообучения за пределами LoRA. Там же можно найти ссылки на библиотеку peft и инструкции по запуску собственных сравнений.