NVIDIA、GRPOトレーニング用の新しいフレームワークPolarを発表
NVIDIA Releases Polar, a Token-Faithful Rollout Framework for GRPO Training Across Codex, Claude Code, and Qwen Code

NVIDIAがPolarというフレームワークを発表し、AIエージェントの学習を効率化します。これにより、ツールを変更せずに強化学習が可能になります。
言語エージェントのための強化学習はますます複雑になっています。エージェントは、複数のツールの使用、長期的なコンテキストの管理、複数のエージェントの調整を行っています。主なエンジニアリングの課題は、既存のエージェントソフトウェアをトレーニングパイプラインに接続し、ツールの機能を壊さないようにすることです。NVIDIAの研究チームは、Polarというフレームワークを導入しました。これにより、研究者はエージェントハーネスを変更することなく、強化学習を実行できるようになります。
Polarが解決する主な問題は、エージェントハーネスがCodex CLI、Claude Code、Qwen Code、またはPiのようなツールであることです。これらのハーネスは、システムプロンプト、ツールのフォーマット、コンテキストのエンジニアリング、エージェントがパッチを提出する方法を管理します。これらの詳細は、評価時のエージェントの行動に直接影響します。従来の強化学習インフラストラクチャは、ハーネスロジックをフレームワーク所有の環境APIの背後で書き換える必要があります。通常は、OpenAI Gymスタイルのenv.init()、env.step()、env.reset()です。新しいハーネスごとに新しい統合コードが必要です。その統合は、ネイティブハーネスパスに特有の実行詳細を失う可能性もあります。
Polarの重要な観察は、すべての文章を書くAI(LLM)ベースのエージェントがモデルを呼び出す必要があるということです。そのモデルAPIの境界は、エージェント自体の外部にある共通のインターフェースです。Polarは、ハーネスの内部で統合するのではなく、その境界にプロキシを配置します。
プロキシの動作は次の通りです。各モデルリクエストに対して、ゲートウェイプロキシは4つのステップを実行します:プロバイダーAPIを検出します。リクエストパスとヘッダーを使用して、Anthropic Messages、OpenAI Chat Completions、OpenAI Responses、Google generateContentスタイルの呼び出しを区別します。リクエストを正規化します。役割、コンテンツ部分、ツール定義、生成パラメータをローカル推論サーバーで使用されるOpenAI Chat Completionsの形状に変換します。トークンレベルのデータをキャプチャします。リクエストメッセージ、レスポンスメッセージ、プロンプトトークンID、サンプリングされたレスポンストークンID、完了理由、ログ確率を保存します。プロバイダーの形状を返します。レスポンスをハーネスが期待するスキーマに変換します。