研究tldr-ai2026-05-21
AIが動く仕組みを単純化
On Building Agents From First Principles
研究者が、AIが自分で動くプログラムの訓練がシンプルな繰り返しだと示しました。これにより、AI開発の理解が深まり、より良いAIを作るヒントになります。
Mishraは、TRL、Unsloth、PRIME-RLといったフレームワークの抽象化を取り除き、あらゆるagent-trainingシステムが「プロンプトからモデルの行動へ、環境へ、報酬へ、そして勾配更新へ」という同じループに還元されることを示しています。彼は、モデルがJSON形式のcreate_shapeおよびconnectアクションを、検証機能を持つキャンバスに対して出力する、tldraw風のテキストから図形を生成するおもちゃのagentを純粋なPythonで構築しました。そして、JSONの有効性、スキーマの準拠、レイアウトの品質、およびプロンプトキーワードのセマンティックな網羅性を組み合わせた報酬関数を重ね合わせました。