AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (11ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説動画

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。

2026年5月14日

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

論文解説言語・LLM

δ-memとは？凍結LLMに8×8連想記憶を付加する軽量オンラインメモリ機構

LLMのバックボーンを凍結したまま8×8の連想記憶行列をDelta則で学習させる新手法「δ-mem」を解説。MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の性能向上を達成しました。

2026年5月13日

論文解説マルチモーダル

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。

2026年5月13日

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

論文解説データセット

Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

64人の数学者が設計した研究レベル数学ベンチマーク「Soohak」を解説します。最先端モデルでもGemini-3-Proが30.4%、GPT-5が26.4%止まりで、不当な問題を見抜く「Refusal Subset」ではいかなるモデルも50%未満でした。

2026年5月12日

Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

論文解説画像

Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。

2026年5月12日

Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

論文解説言語・LLM

ELFとは？Flow Matchingで連続埋め込み空間を活用する新世代拡散言語モデル

Flow Matchingを言語生成に初めて本格適用した拡散言語モデル「ELF」を解説します。最終ステップまで連続埋め込み空間にとどまる設計でCFGが自然に転用可能となり、少ないトレーニングで既存DLMを上回る性能を達成しました。

2026年5月12日

ELFとは？Flow Matchingで連続埋め込み空間を活用する新世代拡散言語モデル

論文解説画像

Mean Mode Screamingとは？1000層DiTを安定化するMV-Split残差手法

拡散モデルの超深層化で発生するトークン均質化崩壊「Mean Mode Screaming」を初特定。MV-Split残差で世界初の1000層DiT安定学習とFID 2.68を達成した研究を解説します。

2026年5月11日

Mean Mode Screamingとは？1000層DiTを安定化するMV-Split残差手法

論文解説言語・LLM

AutoTTSとは？Test-Time Scaling戦略をLLMエージェントが$40で自動発見する新手法

Test-Time Scaling戦略の設計を自動化するAutoTTSをGoogleが提案しました。LLMエージェントがオフラインリプレイ環境で反復的に戦略を探索・評価し、わずか$39.9・160分で手動設計を上回る推論戦略を発見します。

2026年5月11日

AutoTTSとは？Test-Time Scaling戦略をLLMエージェントが$40で自動発見する新手法

論文解説強化学習

Skill1とは？スキル選択・実行・蒸留を単一報酬で共進化させるRLエージェント

スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。

2026年5月10日

Skill1とは？スキル選択・実行・蒸留を単一報酬で共進化させるRLエージェント

論文解説強化学習

LoPEとは？Lorem Ipsum擾乱でGRPOのゼロ優位問題を突破する手法

GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。

2026年5月10日

論文解説動画

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

SwiftI2Vは2段階フレームワークとCSG（セグメント単位生成）を組み合わせ、2K解像度のImage-to-Video生成においてGPU処理時間を202倍削減しながらVBench-I2Vで最高スコアを達成した新手法です。RTX 4090でも実用的な運用が可能です。

2026年5月10日

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

論文解説画像

CDMとは？連続時間分布マッチングで拡散モデルの高速蒸留を刷新する新手法

Continuous-Time Distribution Matching（CDM）は、固定離散タイムステップへの依存を動的連続スケジュールで置き換えることで拡散モデルの蒸留を刷新。GANや報酬モデル不要で過平滑化を解消し、SD3-MediumとLongcat-Imageで4ステップの高品質生成を実現した新手法を解説します。

2026年5月9日

論文解説

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

δ-memとは？凍結LLMに8×8連想記憶を付加する軽量オンラインメモリ機構

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

Qwen-Image-2.0とは？Qwen3-VLと拡散変換器で生成・編集を統合した画像基盤モデル

ELFとは？Flow Matchingで連続埋め込み空間を活用する新世代拡散言語モデル

Mean Mode Screamingとは？1000層DiTを安定化するMV-Split残差手法

AutoTTSとは？Test-Time Scaling戦略をLLMエージェントが$40で自動発見する新手法

Skill1とは？スキル選択・実行・蒸留を単一報酬で共進化させるRLエージェント

LoPEとは？Lorem Ipsum擾乱でGRPOのゼロ優位問題を突破する手法

SwiftI2Vとは？2K動画生成をRTX 4090で202倍高速化するCSGフレームワーク

CDMとは？連続時間分布マッチングで拡散モデルの高速蒸留を刷新する新手法

人気記事