AIの記憶を別AIで更新する新技術
MEMO: A Modular Framework for Training a Dedicated Memory Model on New Knowledge Without Modifying LLM Parameters

AIが新しい知識を学ぶ際、既存のAIの頭の中を変えずに、記憶専門のAIを別に訓練する「MEMO」が提案。知識更新コストを減らし、以前の知識を忘れる問題も防げます。
大規模言語モデルは、pretraining後に静的になります。その知識は、世界が変化しても更新されません。現代の規模では、LLM全体を再訓練することは費用がかかりすぎます。fine-tuningは、以前に学習した知識を劣化させるリスクがあります。Retrieval-augmented generation (RAG)は、多くの文書にわたる推論が必要な回答の場合に苦戦します。National University of Singapore、MIT CSAIL、A*STAR、およびSingapore-MIT Alliance for Research and Technology (SMART)の研究者チームは、MEMO (Memory as a Model)と呼ばれる新しいアプローチを提案しています。MEMOは何の問題を解決するのか?LLMに新しい知識を統合するための既存の方法は、3つのカテゴリに分類されます。RAGのような非パラメトリックな方法は、推論時に文書を検索します。これらは検索ノイズに敏感で、文書間の推論に苦戦します。continual pretrainingやsupervised fine-tuningのようなパラメトリックな方法は、知識をモデルの重みに内部化します。これらは計算コストが高く、新しい訓練が以前に獲得した知識を劣化させる「catastrophic forgetting」を引き起こします。潜在記憶(Latent memory)の方法は、知識をsoft tokensに圧縮します。これらの表現は、それらを生成したモデルに強く結びついており、研究チームはこれを「representation coupling」と呼び、LLM間での転送可能性を制限する要因としています。記憶を独立したモデルとして扱う MEMOは、記憶と推論を分離します。MEMORYモデルは、ターゲットコーパスから知識を内部化するように訓練された、小型で専用の言語モデルです。EXECUTIVEモデルは、主要なLLMであり、凍結されており、その標準的な入出力インターフェースを介してのみクエリされます。実験では、MEMORYモデルはQwen2.5-14B-Instructです。EXECUTIVEモデルは、Qwen2.5-32B-InstructまたはプロプライエタリなクローズドソースモデルであるGemini-3-Flashのいずれかです。MEMOはEXECUTIVEモデルをブラックボックスとして扱うため、重みへのアクセスや出力logitsは必要ありません。https://arxiv.org/pdf/2605.15156 MEMORYモデルの訓練方法 訓練は、GENERATORモデルであるQwen2.5-32B-に導かれる5段階のデータ合成パイプラインから始まります。