MisoTTS、感情音声AIを無料公開
Miso Labs Releases MisoTTS: An 8B Emotive Text-to-Speech Model with Open Weights

Miso Labsが感情豊かな音声を生成するAI「MisoTTS」を無料で公開。AIの音声がより人間らしくなり、不自然さが減るため、自然な会話が可能に。
Miso Labsは、オープンウェイトの80億パラメータのテキスト読み上げモデルであるMisoTTSをリリースしました。これは、テキストと音声コンテキストの両方から表現力豊かな音声を生成します。このモデルは、音域を広げるためにresidual vector quantization (RVQ)を使用しています。これにより、単一のフラットな語彙をスケーリングすることなく、パラメータ数を固定したままにできます。MisoTTSとは MisoTTSは、80億パラメータのテキストから対話へのRVQ Transformerです。Sesame CSMアーキテクチャに触発されています。Llama 3.2スタイルのバックボーンと、より小さなオーディオデコーダーを組み合わせています。テキストとオプションのオーディオコンテキストからMimiオーディオコードを生成します。このモデルは、テキストと以前のオーディオの両方に基づいて条件付けを行います。この2番目の入力により、話者のトーンに応答できます。テキストの語彙は128,256トークンで、32のオーディオコードブックがあります。Mimiはオーディオトークナイザーで、最大シーケンス長は2,048です。デフォルトの推論はtorch.bfloat16で実行されます。Miso Labsは110msのレイテンシを主張しており、ElevenLabsは700ms、Sesameは300msと記載しています。語彙サイズの問題 標準的なTransformerは、離散トークンの固定された語彙から生成します。これは、小さな語彙がターゲット空間をカバーする場合に機能します。人間の音声はその仮定に当てはまりません。ピッチ、リズム、強調、感情、アクセントによって異なります。オーディオ語彙を拡張することが明白な解決策です。しかし、標準的なTransformerでは、より大きな語彙にはより多くのパラメータが必要です。各トークンはモデルによって表現され、予測されなければなりません。Miso Labsはこれを語彙サイズの問題と呼んでいます。2番目の問題は条件付けです。ほとんどのTTSモデルはテキストのみに基づいて条件付けを行います。彼らは対話者のトーンを無視します。Miso Labsは、これが「不気味の谷」効果の一因となっていると主張しています。Residual Vector Quantization: 核となるアイデア MisoTTSは、residual vector quantization (RVQ)で両方の問題に対処しています。Miso Labsは、RVQを画像生成研究とオーディオ用のSesame CSMに遡ります。モデルは、1つのトークンインデックスの代わりに、インデックスのベクトルを出力します。各オーディオトークンは、2048通りのコードブックにわたる32のコードブックインデックスです。モデルは別の