AIが常に学ぶ仕組み、2.81倍速く
Trajectory Releases a Concurrent Multi-LoRA Training Stack for Continual Learning, Reporting a 2.81× Experiment-Throughput Gain

Trajectory社が、AIが常に新しい情報を学び続けるための仕組みを開発し、実験速度を2.81倍に向上させました。これにより、AIの進化が大幅に加速します。
Trajectory社の並行Multi-LoRAスタックは、シングルテナントRLと比較して、実験スループットが2.81倍向上したと報告しており、すべてのコードはNovaSky-AI/SkyRL GitHubリポジトリで公開されています。ほとんどの言語モデルは、不連続なジャンプで改善されます。チームはデータを収集し、トレーニングし、新しいバージョンを出荷します。これには数ヶ月かかり、ユーザーにとって驚くべき、あるいは壊滅的な振る舞いを引き起こすことがあります。Trajectory社は、このサイクルをcontinual learning(継続学習)に置き換えたいと考えています。Trajectoryチームは、その方法を説明するフィールドレポートを公開しました。彼らは、継続的に学習するワークロードのための並行Multi-LoRAトレーニングプラットフォームを構築しました。この作業は、UC Berkeley Sky LabとAnyscaleと共同で行われました。すべてのトレーニングコードはNovaSky-AI/SkyRLリポジトリでオープンソース化されています。その結果、エンドツーエンドの実験スループットが2.81倍向上しました。この比較は、シングルテナントのトレーニングフレームワークに対するものです。Trajectory社は、いかなるトレーニング報酬においても性能低下がないと報告しています。Multi-LoRAトレーニングとは何か Continual learningでは、モデルがライブフィードバックや本番環境でのインタラクションから更新される必要があります。例えば、開発者がコードエージェントの作業を修正するにつれて、エージェントはエンジニアリングパターンを学習できます。サポートエージェントは、オペレーターが難しいケースに介入するにつれて、困難なチケットを解決できるようになります。ほとんどのトレーニングインフラストラクチャは、依然として線形なライフサイクルを前提としています。チームはGPUを割り当て、モデルを初期化し、ジョブを実行し、その後シャットダウンします。Continual learningはその関係を見直します。本番環境でのインタラクションがトレーニング入力になるとき、トレーニングはライブシステムの一部となります。現代のRLトレーニングは、3つの主要なプリミティブに集約されます。サンプラーは現在のポリシーモデルから軌跡を生成します。トレーナーは勾配を計算し、ポリシーの重みを更新します。パラメータ同期は、更新された重みを推論ワーカーにブロードキャストします。Trajectory社は、このアプローチをContinuous Multi-LoRA Training、略してC-LoRAと呼んでいます。各実験は、ウォームなマルチテナントエンジン上の専用LoRAアダプターにマッピングされます。ターゲットとする問題 Trajectoryチームは、従来のスタックにおける4つの非効率性を特定しています。(1) コールドスタートが遅い:すべての