Stability AIが新しい音のAIを発表
Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing

Stability AIが、音楽や効果音を生成・編集できる新しいAI「Stable Audio 3」を公開しました。これは、音のコンテンツ制作を大きく変える可能性を秘めています。
Stability AIは、Stable Audio 3のオープンウェイトと技術研究論文を公開しました。Stable Audio 3は、44.1 kHzのステレオ音声を生成するlatent diffusion modelsのファミリーです。これらのモデルは、可変長の出力、inpainting-based editing、および高速なinferenceをサポートしています。What Is Stable Audio 3? Stable Audio 3は、small、medium、largeの3つのモデルスケールからなるファミリーです。latent diffusion modelは、latentと呼ばれる音声の圧縮表現から段階的にノイズを除去することを学習することで音声を生成します。このモデルは、多数の(ノイズのあるlatent、音声)ペアでトレーニングすることにより、ノイズからデータへのマッピングを学習します。これら3つのモデルスケールは、容量と最大生成長が異なります。以下のすべてのパラメーター数は、diffusion transformerコンポーネントのみのものです。各モデルには、SAME autoencoderも含まれています(SAME-Sは108Mパラメーター、SAME-Lは852Mパラメーター)。small-musicは459Mのdiffusion transformerパラメーターを持ち、最大2分まで生成可能で、音楽のみに対応します。small-sfxは459Mのdiffusion transformerパラメーターを持ち、最大2分まで生成可能で、効果音のみに対応します。mediumは1.4Bのdiffusion transformerパラメーターを持ち、最大6分20秒まで生成可能で、音楽と効果音に対応します。largeは2.7Bのdiffusion transformerパラメーターを持ち、最大6分20秒まで生成可能で、音楽と効果音に対応します。smallとmediumのオープンウェイトはHugging Faceで利用可能です。largeはエンタープライズライセンスで利用可能です。Architecture: Two Components Stable Audio 3には、SAMEと呼ばれるsemantic-acoustic autoencoderと、テキスト、duration、inpainting masksに基づいてlatent sequencesを生成するdiffusion transformerという2つの主要コンポーネントがあります。https://arxiv.org/pdf/2605.17991 The SAME Autoencoder SAME (Semantically-Aligned Music autoEncoder) は、ステレオ44.1 kHzの音声をコンパクトなlatent表現に変換し、元に戻します。その主要な設計パラメーターは4096倍のダウンサンプリング比で、これは以前のオーディオautoencodersで一般的だった1024倍から2048倍の比率よりも大幅に高くなっています。この高い比率は、latent sequenceの長さを十分に短縮し、長尺の生成をconsu