圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。
DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR(Diffusion-Adaptive Routing)を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。
NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。
Microsoftが提案する3.8BパラメータのT2Iモデル「Lens」。GPT-4.1生成の高密度キャプション8億件と計算量換算19.3%という効率的な学習を実現した仕組みを解説します。
ライブ演奏向けのリアルタイム音楽生成フレームワーク「Live Music Diffusion Models」を解説。KVキャッシングとARC-Forcingにより、消費者向けGPUで30ms以下の低遅延生成を実現した手法を紹介します。
KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。
人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。
剛体・変形体・関節体を統一的に扱うシミュレーション対応3D生成フレームワーク「PhysX-Omni」を解説。新データセット「PhysXVerse」と評価ベンチマーク「PhysX-Bench」も同時公開。
全注意LLMに内在する疎性を活用して数百ステップの軽量学習で疎注意モデルへ変換するRTPurboを解説します。100万トークンのプリフィルで最大9.36倍の高速化を達成しながら精度をほぼ維持します。
Flux・SD3などのDiTモデルが抱える高解像度生成時の構造崩壊を、追加学習なしで解決するSEGAを解説。潜在空間のスペクトルエネルギーでRoPEを動的スケーリングし、4096²超の高品質生成を実現します。
NVIDIAが提案するGated DeltaNet-2は、線形注意の消去ゲートと書き込みゲートをチャネル単位で独立させ、1.3BモデルでMamba-2・KDAを複数ベンチマークで上回る性能を実現しました。
検証可能な報酬からの強化学習(RLVR)で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング