NVIDIA、Nemotron 3.5 ASRを発表:600Mのパラメータで40言語をリアルタイム転写
NVIDIA Releases Nemotron 3.5 ASR: A 600M-Parameter Cache-Aware Streaming Model Transcribing 40 Language-Locales in Real Time

NVIDIAが新しい音声認識モデルNemotron 3.5 ASRを発表し、600Mのパラメータで40言語をリアルタイム転写できることが重要です。
NVIDIAのNemotron Speechチームは、Nemotron 3.5 ASRを発表しました。これは、600Mのパラメータを持つストリーミング自動音声認識(ASR)モデルです。単一のチェックポイントで、40の言語地域をリアルタイムで転写します。句読点や大文字小文字の処理がネイティブに組み込まれています。このモデルはHugging Faceでオープンウェイトとして提供され、ライセンスはOpenMDW-1.1です。アーキテクチャはCache-Aware FastConformer-RNNTです。
Nemotron 3.5 ASRは、nvidia/nemotron-speech-streaming-en-0.6bを多くの言語に拡張しています。基本モデルにプロンプトベースの言語識別条件付けを追加し、1つの600Mパラメータのチェックポイントで40の言語地域をカバーします。言語ごとのモデルやモデルの切り替えは不要です。このモデルは2つの作業負荷を対象としています。1つはライブ音声のための低遅延ストリーミング、もう1つは高スループットのバッチ転写です。出力は適切な大文字小文字と句読点を持つ生産準備完了のテキストです。別途句読点復元のステップは必要ありません。
Cache-Aware FastConformer-RNNTの仕組み
このモデルは2つの主要な部分で構成されています。1つは24層のCache-Aware FastConformerエンコーダーです。FastConformerはConformerアーキテクチャの効率的な進化版で、線形スケーラブルな注意機構を使用します。もう1つはRNNT(Recurrent Neural Network Transducer)デコーダーです。RNNTは、音声がストリーミングされる中でフレームごとにテキストを出力します。「キャッシュ対応」設計は効率性を高める要素です。バッファリングされたストリーミングは、各ステップで重複する音声ウィンドウを再処理します。これにより、同じ作業が繰り返され、遅延が生じます。このモデルはエンコーダーの自己注意と畳み込みの活性化をキャッシュします。新しい音声が到着する際に、これらのキャッシュされた状態を再利用します。したがって、各音声フレームは一度だけ処理され、重複はありません。計算とエンドツーエンドの遅延は両方とも低下し、精度に影響はありません。
遅延ノブ:att_context_size
1つの推論設定が遅延と精度のトレードオフを制御します。それは注意のコンテキストサイズ、att_context_sizeです。小さいコンテキスト...