研究tldr-ai2026-05-26
AIが自分で学ぶ新しい方法
On-Policy Distillation

AIが自分で行動し、先生AIが指導する新学習法。訓練と実際の動きのズレを解消し、AIが賢く動く性能を高めます。
On-policy distillationは、生徒モデルが自身のポリシーからサンプリングされた軌跡に基づいて訓練される際に、教師がKL-based regularizationを通じて密なトークンレベルの監視を提供します。これにより、off-policy methodsが抱える訓練時と推論時の分布の不一致を解消します。 この標準的な定式化は、forward-KL、reverse-KL、およびJSD lossesを統合し、reverse-KLがモード探索を行う小規模な生徒にとってのデフォルトとして浮上しています。TinkerのようなRL stack上でregularizer modelを一行コードで入れ替えるだけで、この技術を実装できます。