AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (10ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説画像

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。

2026年5月18日

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

論文解説画像

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。

2026年5月17日

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

論文解説動画

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。

2026年5月17日

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

論文解説データセット

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。

2026年5月17日

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

論文解説動画

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。

2026年5月16日

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

論文解説強化学習

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。

2026年5月16日

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

論文解説言語・LLM

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

訓練不要の進化的モデルマージフレームワーク「Darwin Family」が、GPQA Diamondで86.9%（1252モデル中6位）を達成。14次元ゲノムとMRI-Trust Fusionで複数LLMを重み空間で交配させ、追加学習なしに推論性能を高める革新的手法を解説します。

2026年5月16日

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

論文解説動画

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。

2026年5月15日

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

論文解説動画

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。

2026年5月15日

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

論文解説言語・LLM

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

30Bパラメータ（3B active）のMoEモデル「SU-01」がIMO 2025・USAMO 2026で金メダルラインを達成。逆パープレキシティカリキュラムSFTから二段階RL・テスト時スケーリングへの統一レシピとその成果を解説します。

2026年5月15日

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

論文解説画像

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。

2026年5月14日

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

論文解説マルチモーダル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。

2026年5月14日

論文解説

InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

VGGT-Editとは？テキスト指示で3Dシーンをフィードフォワード即時編集する新手法

Warp-as-Historyとは？フリーズモデルで実現するゼロショットカメラ制御ビデオ生成

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

人気記事