本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この研究では、音声生成モデルに焦点を当て、特にテキストから音声を生成(Text-to-Audio Generati […]
全二重リアルタイム音声対話モデル「Moshi」を解説。重複発話や割り込みに対応し、低遅延の自然な対話を実現する新しいアーキテクチャの仕組みと特徴を紹介します。
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。 この研究のポイントは? 本論文の内容は、テキストから音声を生成する際の品質と効率を改善するために、「EzAu […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
開発者向け検索AI「Phind 2」登場、視覚的検索強化!
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル