Mimi Codec

運用中

音声を意味的ストリームと音響的ストリームに分離するオーディオコーデック

web•2026年4月20日

AIAudio ProcessingVoice Technology

何をするのか

詳細

Mimiは24kHzのオーディオ波形を32個のトークンストリームに変換します。最初のストリームで音素内容（話している内容）を捉え、残りのストリームで音色や質感などの音響的詳細を保持します。この分離により、オーディオの異なる側面を独立して操作・制御することが可能です。

誰に向いているか

なぜ重要か

音声における意味的情報と音響的情報を分離することで、音声内容のよりきめ細かな操作と理解が可能になります。音声特性の選択的なエンコード・デコードが実現し、音声合成やリアルタイム音声処理アプリケーションに影響を与えます。

差別化ポイント

手動のコーディングではなく、トレーニングを通じて意味的コンポーネントと音響的コンポーネントを自動的に分離するという独自のアプローチにより、高度に詳細なオーディオ操作を実現しています。

出典

GLOBAL · Hacker NewsEN— 2026年4月20日訪問 →

最初に発見 2026年4月20日 · Hacker News