音声

dots.ttsとは？連続潜在空間で学習する20億パラメータの多言語TTS基盤モデル

連続潜在空間で音声をモデル化する20億パラメータのTTS基盤モデルdots.ttsを解説。AudioVAEと自己補正後学習で中国語WER 0.94%・英語WER 1.30%を達成し、初音遅延85msも実現。Apache 2.0で完全公開予定。

Mistral AIが開発したオープンな多言語TTSモデル「Voxtral TTS」を解説。3秒の参照音声から話者の声質を再現し、ElevenLabs Flash v2.5に68.4%の勝率を達成した仕組みを紹介します。

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この研究では、音声生成モデルに焦点を当て、特にテキストから音声を生成（Text-to-Audio Generati […]

全二重リアルタイム音声対話モデル「Moshi」を解説。重複発話や割り込みに対応し、低遅延の自然な対話を実現する新しいアーキテクチャの仕組みと特徴を紹介します。

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。この研究のポイントは？本論文の内容は、テキストから音声を生成する際の品質と効率を改善するために、「EzAu […]