1枚の画像からカメラ移動・物体の動き・天気変化を単一モデルで独立制御してビデオを生成する「Holo-World」を解説。新データセットと統合アダプターにより、従来は困難だった複合制御を実現しました。
物理AI向け世界モデル「Kairos」は、3種の注意機構を組み合わせたハイブリッド時間アーキテクチャで誤差蓄積の上限を理論的に証明し、RoboTwin 2.0など複数ベンチマークで最高水準の性能を達成しました。
自己回帰型拡散モデルで生じる長尺動画の品質ドリフトを、追加学習なしで抑える「TetherCache」を解説します。GRABとTAMEの2機構により、240秒生成での品質ドリフトスコアを7.84から1.33に大幅削減しました。
MoVerse は1枚の写真から360°パノラマ生成・3D空間再構成を経て、RTX 4090で8 FPSのリアルタイム動画を出力する新手法です。VR/ARやゲーム、ロボティクスへの応用が期待されます。
Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。
Dream.exeは8種類の動画生成モデルを101件のロボット操作タスクで評価し、視覚的品質と物理的実行成功率が無相関(r=−0.03)という事実を実証した新評価フレームワークです。
北京大学発の5Bパラメータ動画モデル「LoomVideo」は、MLLMをバックボーンに採用して動画生成と編集を統合。Scale-and-Add条件付けにより類似性能帯モデル比5.41倍の推論高速化を実現しています。
自己回帰動画生成を1ステップに圧縮するAAD-1を解説します。因果的な生成器と双方向識別器の非対称設計で動きの崩壊を克服し、VBenchで既存の4ステップ手法を上回るSOTAを達成しました。
24時間超・130万フレーム以上の動画をリアルタイム生成する初のフレームワーク「Echo-Infinity」を解説。人間の記憶統合に着想した学習可能メモリと改良版RoPEで、短尺・長尺の両タスクでSoTAを達成しました。
DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。
NVIDIAが発表したLongLive-2.0は、NVFP4(4bit浮動小数点)精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング