MeMo: архитектура «память как модель» решает проблему актуализации знаний в нейросетях
Интеграция новых знаний в большие языковые модели (LLM) после завершения их обучения остается серьезным препятствием для корпоративного использования искусственного интеллекта. Существующие решения часто оказываются слишком дорогими, медленными или ограниченными объемом контекстного окна. Группа исследователей из нескольких университетов представила MeMo — фреймворк, который кодирует новую информацию в отдельную компактную модель памяти, функционирующую независимо от основной LLM.
Модульная архитектура MeMo совместима как с открытыми, так и с закрытыми моделями, позволяя обойти сложности, характерные для традиционных систем генерации с дополненной выборкой (RAG) и полного переобучения нейросетей. Эксперименты показали, что MeMo надежно обрабатывает сложные запросы даже при наличии «шума» в данных, избегает потери ранее усвоенных навыков и обеспечивает экономичный путь для постоянного обновления базы знаний.
Проблемы существующих подходов к обновлению памяти LLM
Большие языковые модели остаются «замороженными» после этапа обучения. Их внутренние знания статичны до тех пор, пока не будет проведено масштабное и ресурсозатратное обновление. В настоящее время разработчики полагаются на три основных метода интеграции внешних данных, каждый из которых имеет свои недостатки:
- Непараметрические методы (RAG): поиск релевантных документов во внешней базе и их вставка в запрос. Метод ограничен размером контекстного окна. Векторные базы данных не всегда точно передают семантику фрагментов текста, а обработка тысяч токенов создает задержки. Системы RAG крайне чувствительны к шуму: нерелевантные фрагменты текста часто ухудшают итоговый ответ.
- Параметрические методы (Fine-tuning): попытка внедрить знания напрямую в веса модели. Обновление современных гигантских LLM обходится слишком дорого и невозможно для проприетарных моделей, доступных только через API. Тонкая настройка также подвержена «катастрофическому забыванию», когда адаптация к новым данным ухудшает базовые способности модели к рассуждению.
- Методы скрытой памяти: сжатие знаний в компактные «мягкие токены». Главный минус здесь — жесткая привязка к архитектуре конкретной модели, что исключает перенос памяти между разными нейросетями.
Принцип работы фреймворка MeMo
Архитектура MeMo (Memory as a Model) разделяет процесс на два компонента. Модель MEMORY — это малая языковая модель, обученная кодировать новые знания в свои параметры. Модель EXECUTIVE — это готовая мощная LLM, которая служит «движком» для рассуждений. При получении вопроса модель EXECUTIVE использует модель MEMORY как внешний оракул, отправляя ей точечные подзапросы для сбора фактов и формируя на их основе итоговый ответ.
В основе MeMo лежит концепция «рефлексий» — целевых пар «вопрос-ответ», охватывающих все аспекты корпуса данных. Вместо обработки неструктурированного текста система использует вспомогательную модель для преобразования сырой информации в тысячи таких пар. Затем модель MEMORY настраивается на этом наборе данных, что позволяет ей отвечать на вопросы, используя собственные параметры без необходимости повторного чтения контекста.
Процесс взаимодействия моделей включает три этапа:
- Разбиение сложного запроса пользователя на атомарные подвопросы.
- Уточнение сущностей через дополнительные запросы к модели памяти.
- Синтез полученных фактов в связный и аргументированный ответ.
Эффективность и результаты тестирования
Для управления изменениями в базе знаний MeMo использует технику слияния моделей (model merging). Вместо полного переобучения системы на старых и новых данных, обучается новая независимая модель памяти только на свежих документах. Извлеченные изменения математически объединяются с весами исходной модели памяти. Это значительно сокращает затраты на вычисления, хотя и влечет за собой снижение точности на 11–19% по сравнению с полным переобучением.
В ходе испытаний на бенчмарке NarrativeQA связка MeMo с моделью Gemini показала точность 53,58%, в то время как продвинутая система HippoRAG2 достигла лишь 23,21%. MeMo эффективно справляется с анализом информации, рассредоточенной по множеству документов, что критично для работы с корпоративными кодовыми базами или нормативными актами.
Исследователи отмечают высокую устойчивость системы к «мусорным» данным. При намеренном наполнении базы нерелевантными документами эффективность MeMo снизилась менее чем на 2%, тогда как показатели альтернативных систем упали более чем на 11%. Это делает фреймворк подходящим для работы с реальными корпоративными архивами, где часто встречаются дубликаты и устаревшие версии файлов.
Ограничения и стоимость внедрения
Несмотря на преимущества, использование MeMo требует предварительных затрат на обучение. Подготовка набора данных для обучения модели памяти заняла около 240 GPU-часов на ускорителях NVIDIA H200, а само обучение модели на 14 миллиардов параметров потребовало еще 180 GPU-часов. Снижение этих затрат является приоритетным направлением для будущих исследований.
Кроме того, поскольку MeMo синтезирует ответы на основе параметров нейросети, а не прямого цитирования текста, становится сложнее отследить первоисточник конкретного утверждения. Это может быть препятствием для отраслей, требующих строгого аудита данных. Эксперты рекомендуют использовать традиционный RAG для простого поиска по конкретным документам, а MeMo — для задач, требующих глубокого синтеза знаний из разрозненных источников.
