研究tldr-ai2026-06-01
AIの行動学習、言葉のやり取りを正確に
Agentic RL: Token-In, Token-Out Done Right
AIが学習する際、言葉のやり取りを正確に保つ新しい方法が開発されました。これにより、AIの学習がより安定し、信頼性の高い結果を出せるようになります。
LLMを用いたreinforcement learningにおいて、モデルがサンプリングされた正確なtokensで動作することを保証することは極めて重要です。Re-tokenizingはdriftや信頼性の低いgradientsを引き起こす可能性があります。この解決策は、デコードされたtokensを再エンコードしないこと、そしてdriftを避け、正確なloss computationを維持するためにサンプリングされたtokensのbufferを保持することを含みます。このアプローチは、ほとんどの現代的なtemplatesが満たすprefix-preserving chat templateの特性に依存しており、冗長なre-renderingなしに信頼性の高いreinforcement learningループを保証します。