連続潜在空間で音声をモデル化する20億パラメータのTTS基盤モデルdots.ttsを解説。AudioVAEと自己補正後学習で中国語WER 0.94%・英語WER 1.30%を達成し、初音遅延85msも実現。Apache 2.0で完全公開予定。
Mistral AIが開発したオープンな多言語TTSモデル「Voxtral TTS」を解説。3秒の参照音声から話者の声質を再現し、ElevenLabs Flash v2.5に68.4%の勝率を達成した仕組みを紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この研究では、音声生成モデルに焦点を当て、特にテキストから音声を生成(Text-to-Audio Generati […]
全二重リアルタイム音声対話モデル「Moshi」を解説。重複発話や割り込みに対応し、低遅延の自然な対話を実現する新しいアーキテクチャの仕組みと特徴を紹介します。
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。 この研究のポイントは? 本論文の内容は、テキストから音声を生成する際の品質と効率を改善するために、「EzAu […]
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング