音声AIを自宅で使うアプリ登場
Meet OmniVoice Studio: A Local, Open-Source Alternative to ElevenLabs

OmniVoice Studioは、音声AIの機能を自分のパソコンで実行できるアプリで、プライバシーを守りつつ費用を抑えられるため重要です。
ElevenLabsは、音声AIサービスに対して月額5ドルから330ドルを請求します。処理するすべてのオーディオファイルは、彼らのクラウドサーバーを経由します。ElevenLabsのオープンソースの代替を探している人にとって、OmniVoice Studioは、同じ種類のタスクをローカルで実行するオープンソースのデスクトップアプリケーションとして最適です。これは、ボイスクローニング、ビデオダビング、リアルタイムディクテーション、ボーカル分離、話者ダイアライゼーションを、外部サーバーにデータを送信することなく処理する非常に興味深い個人プロジェクトです。OmniVoice Studioができること
このアプリケーションは6つの異なる機能をバンドルしています。それぞれの機能を理解することで、システムが内部で何をしているのかが明確になります。ボイスクローニングは3秒のオーディオクリップから機能します。このシステムはzero-shot learningを使用します。つまり、これまでトレーニングされたことのない音声をクローンします。これは、短い参照オーディオに基づいてdiffusion-based TTSモデルを条件付けることによって行われます。基盤となるモデルであるk2-fsaのOmniVoiceは、600以上の言語をサポートしています。ボイスデザインでは、性別、年齢、アクセント、ピッチ、速度、感情、方言といったパラメーターから新しい音声を作成できます。既存の音声をクローンすることはありません。ビデオダビングは、YouTubeのURLまたはローカルのビデオファイルを受け取ります。WhisperXを使用して文字起こしを実行し、文字起こしを翻訳し、TTSエンジンを使用して新しい音声を合成し、MP4をエクスポートします。パイプライン全体がローカルで実行されます。ディクテーションウィジェットは、システム全体にわたるフローティングオーバーレイです。macOSでは、どのアプリケーションからでも⌘+⇧+Spaceでアクティブ化されます。WebSocketを介して文字起こしをストリーミングし、フォーカスされているアプリに結果を自動的に貼り付けます。バッチキューでは、最大50本のビデオをドロップして放置することができ、ジョブごとの進捗バーが各ビデオのパイプライン全体を追跡します。MCP Serverは、OmniVoice Studioの機能をClaude、Cursor、または独自のツールを含む任意のMCPクライアントに公開します。アーキテクチャ
このプロジェクトは、ReactのフロントエンドがFastAPIのバックエンドと通信しています。バックエンドは97のAPIエンドポイントを公開し、ストリーミング更新にServer-Sent Events (SSE)を使用し、データを保存します。