AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (8ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説マルチモーダル

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。

2026年5月26日

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

論文解説画像

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR（Diffusion-Adaptive Routing）を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。

2026年5月25日

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

論文解説画像

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。

2026年5月25日

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

論文解説画像

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

Microsoftが提案する3.8BパラメータのT2Iモデル「Lens」。GPT-4.1生成の高密度キャプション8億件と計算量換算19.3%という効率的な学習を実現した仕組みを解説します。

2026年5月25日

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

論文解説音楽

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

ライブ演奏向けのリアルタイム音楽生成フレームワーク「Live Music Diffusion Models」を解説。KVキャッシングとARC-Forcingにより、消費者向けGPUで30ms以下の低遅延生成を実現した手法を紹介します。

2026年5月24日

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

論文解説動画

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。

2026年5月24日

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

論文解説強化学習

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。

2026年5月24日

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

論文解説画像

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

剛体・変形体・関節体を統一的に扱うシミュレーション対応3D生成フレームワーク「PhysX-Omni」を解説。新データセット「PhysXVerse」と評価ベンチマーク「PhysX-Bench」も同時公開。

2026年5月23日

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

論文解説言語・LLM

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

全注意LLMに内在する疎性を活用して数百ステップの軽量学習で疎注意モデルへ変換するRTPurboを解説します。100万トークンのプリフィルで最大9.36倍の高速化を達成しながら精度をほぼ維持します。

2026年5月23日

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

論文解説画像

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

Flux・SD3などのDiTモデルが抱える高解像度生成時の構造崩壊を、追加学習なしで解決するSEGAを解説。潜在空間のスペクトルエネルギーでRoPEを動的スケーリングし、4096²超の高品質生成を実現します。

2026年5月23日

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

論文解説言語・LLM

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

NVIDIAが提案するGated DeltaNet-2は、線形注意の消去ゲートと書き込みゲートをチャネル単位で独立させ、1.3BモデルでMamba-2・KDAを複数ベンチマークで上回る性能を実現しました。

2026年5月22日

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

論文解説強化学習

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

検証可能な報酬からの強化学習（RLVR）で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。

2026年5月22日

論文解説

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

人気記事