AIが文章を作る速さアップ
Unlocking asynchronicity in continuous batching
AIが文章を作る処理(連続バッチ処理)を非同期化することで、スループットが最大2.5倍、待ち時間が40%減り、より多くの人がAIを速く使えるようになります。
連続バッチ処理は、大規模言語モデルの効率的な提供において基盤となる技術として登場し、入ってくるリクエストを動的にグループ化することでGPU利用率を大幅に向上させてきました。しかし、従来の多くの実装は、特にprefillとdecodeのフェーズにおいて、同期実行のボトルネックに悩まされていました。新しい大規模なリクエスト(prefill)が到着すると、進行中のより小さなdecode操作をブロックし、スループットの最適化不足やテールレイテンシの増加につながることがあります。本論文は、これらの制限を緩和するために設計された、新しい非同期連続バッチ処理メカニズムを導入します。prefillとdecodeのステージを分離し、高度なスケジューリングアルゴリズムとCUDA stream管理を活用することで、我々のアプローチはこれらの操作が互いをブロックすることなく並行して実行することを可能にします。具体的には、decode操作を優先しつつ、prefillタスクをインテリジェントにインターリーブする動的トークンスケジューリングポリシーを実装し、多様なリクエストパターン全体でGPUリソースがより効果的に利用されるようにします。我々の実験結果は、大幅な性能向上を示しています。Llama-2 70Bを用いたベンチマークにおいて、我々の非同期バッチ処理システムは、同期連続バッチ処理と比較してスループットを最大2.5倍向上させ、平均リクエストレイテンシを40%削減しました。この強化は、運用コストの削減と、同じハードウェアインフラでより多くのユーザーベースにサービスを提供する能力に直接つながります。提示された技術は広く適用可能であり、既存のLLM serving frameworksに統合でき、よりスケーラブルで応答性の高いAIアプリケーションへの道を開きます。