音声AIがリアルタイムで会話、役になりきる
StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

StepFunがリアルタイムで会話できる音声AIを発表。役になりきる学習で、より自然な対話が可能になり、人間らしいコミュニケーションが期待されます。
上海を拠点とするAIラボのStepFunは、StepAudio 2.5 Realtimeをリリースしました。これは、完全にカスタマイズ可能なペルソナ機能を備えた、エンドツーエンドのリアルタイム音声大規模言語モデルです。StepAudio 2.5 Realtimeは、リアルタイムで動作する音声モデルです。音声認識、推論、合成を連続したステップに分けるパイプラインベースのシステムとは異なり、これは単一の統合システムを通じて音声が入力され、音声が出力されるエンドツーエンドモデルです。このモデルは中国語と英語をサポートしています。WebSocket APIを介して接続し、エンドポイントはwss://api.stepfun.com/v1/realtimeで、モデル文字列はstep-2.5-realtimeを使用します。 3つの技術的柱 StepFunの研究チームは、このモデルの背後にある3つの主要なアーキテクチャ革新について説明しています。 1. 数百万規模のペルソナデータ拡張 10,000以上の高品質なネイティブ作成ペルソナから始まり、StepFunはアルゴリズムによる拡張を適用して、数百万規模のペルソナ特徴マトリックスを構築しました。これは、数百万の実世界の会話サンプルと組み合わせてトレーニングされました。目的は汎化、特に困難な、ロングテールな会話トピックでの安定したパフォーマンスです。StepFunチームは、数百万のペルソナサンプルを手動でラベル付けする代わりに、厳選されたシードセットからアルゴリズムによる拡張を使用しました。 2. ロールプレイに特化したRLHFアライメント 会話型AIにおける既知の失敗モードは、「キャラ崩壊」(OOC)行動、つまりモデルが会話中に定義されたペルソナから逸脱することです。StepFunチームは、ロールプレイシナリオにおけるペルソナの一貫性のために、RLHF(Reinforcement Learning from Human Feedback)最適化を特別に実施しました。RLHFは、人間の好み信号を使用して報酬モデルをトレーニングし、それが言語モデルの動作を導くトレーニング手法です。ロールプレイの安定性に特化して適用することは、意図的な設計選択です。 3. 統合された音声理解と生成 StepAudio 2.5 Realtimeは、StepAudio 2.5 TTSの機能を継承し、強化学習を通じて音声理解と生成を深く融合させます。