AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (3ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説動画

MoVerseとは？1枚の写真からリアルタイムで歩き回れる3Dシーン生成

MoVerse は1枚の写真から360°パノラマ生成・3D空間再構成を経て、RTX 4090で8 FPSのリアルタイム動画を出力する新手法です。VR/ARやゲーム、ロボティクスへの応用が期待されます。

2026年6月13日

論文解説画像

Modality Forcingとは？疎な深度データで学習する画像・深度マップ同時生成手法

単一のDiTモデルで画像と深度マップを同時生成する「Modality Forcing」を解説。疎な実世界深度データで学習し、従来手法比AbsRelエラーを57%削減した仕組みと成果を紹介します。

2026年6月13日

Modality Forcingとは？疎な深度データで学習する画像・深度マップ同時生成手法

論文解説マルチモーダル

InterleaveThinkerとは？既存画像生成モデルにテキスト・画像交互生成を付与する強化学習手法

既存の画像生成モデル（FLUX等）を改変せずに活用し、テキストと画像を交互生成する能力を付与するマルチエージェントフレームワーク「InterleaveThinker」を解説。WISEスコアが0.47から0.73へ大幅に改善しました。

2026年6月13日

InterleaveThinkerとは？既存画像生成モデルにテキスト・画像交互生成を付与する強化学習手法

論文解説言語・LLM

MaxProofとは？集団探索と生成的検証器でIMO・USAMO金メダルを超えた数学証明AI

MiniMaxが開発した数学証明AI「MaxProof」の仕組みを解説。証明生成・検証・修復を統合したM3モデルが、IMO 2025で35/42問、USAMO 2026で36/42問を解き、いずれも金メダル基準を超えました。

2026年6月12日

MaxProofとは？集団探索と生成的検証器でIMO・USAMO金メダルを超えた数学証明AI

論文解説言語・LLM

MiniMax Sparse Attention: 1Mトークン長文脈で注意機構の計算量を28倍削減する高速化手法

MiniMax社のスパースAttention手法「MSA」を解説。1Mトークン時の注意計算量を28.4倍削減し、H800 GPUでプリフィル14.2倍・デコード7.6倍を達成しながら標準GQAと同等の精度を維持します。

2026年6月12日

MiniMax Sparse Attention: 1Mトークン長文脈で注意機構の計算量を28倍削減する高速化手法

論文解説マルチモーダル

SpatialClaw: コード実行を行動基盤にした空間推論エージェントとは？

NVIDIAが提案する「SpatialClaw」は、PythonカーネルをAIの行動インターフェースに採用した空間推論エージェントです。20のベンチマークで従来手法を+11.2ポイント上回り、6種のVLMに追加学習なしで適用できます。

2026年6月12日

論文解説言語・LLM

Arborとは？仮説ツリー精練でAIが自律研究を実行する新フレームワーク

中国人民大学NLPIR Labが提案するArborは、仮説・実験・知見を1本のツリーで累積管理する自律研究フレームワークです。6タスク全てでClaude Code比2.5倍以上の改善を実現し、MLE-Bench Liteでは86.36%を達成しました。

2026年6月11日

論文解説言語・LLM

Manifold Power Iterationとは？MoEルーター設計を特異方向で刷新する新手法

MoEモデルのルーター設計に数学的根拠を与えるManifold Power Iteration（MPI）を解説。エキスパート行列の主特異方向への整合で損失を改善し、下流タスク性能も向上させる新手法を紹介します。

2026年6月11日

Manifold Power Iterationとは？MoEルーター設計を特異方向で刷新する新手法

論文解説画像

i1とは？公開データだけで既存オープンモデルを29.5pt超える画像生成の完全レシピ

スタンフォード大が300以上の実験で体系化したテキスト→画像拡散モデルの設計レシピ。公開データのみで訓練した3Bパラメータモデルが5ベンチマーク平均で既存オープンモデルを29.5pt上回る性能を達成しました。

2026年6月11日

i1とは？公開データだけで既存オープンモデルを29.5pt超える画像生成の完全レシピ

論文解説マルチモーダル

Keye-VL-2.0とは？256Kコンテキストで長尺動画を理解するオープンソースMoEモデル

Kuaishouが開発した30B MoE型マルチモーダルモデル「Keye-VL-2.0」を解説します。3Bのアクティブパラメータで256Kコンテキストを処理し、LongVideoBenchで235B超のモデルを上回る長尺動画理解性能を実現しました。

2026年6月10日

Keye-VL-2.0とは？256Kコンテキストで長尺動画を理解するオープンソースMoEモデル

論文解説言語・LLM

Attention Amnesiaとは？ハイブリッドLLMの長距離記憶を壊すCoT学習の問題と修復法

CoT微調整がハイブリッドLLMの長文書検索性能を67%から9%へ激減させる「Attention Amnesia」問題と、追加学習不要の修復法QK-Restoreを解説します。

2026年6月10日

Attention Amnesiaとは？ハイブリッドLLMの長距離記憶を壊すCoT学習の問題と修復法

論文解説マルチモーダル

ARMとは？離散視覚トークンと強化学習で理解・生成・編集を統合した自己回帰型マルチモーダルAI

ARMは7Bパラメータの単一モデルで画像の理解・生成・編集を統合した自己回帰型マルチモーダルAIです。独自の離散視覚トークナイザーと強化学習でWISE総合スコアが0.50から0.56に向上し、コードも公開されています。

2026年6月10日

論文解説

MoVerseとは？1枚の写真からリアルタイムで歩き回れる3Dシーン生成

Modality Forcingとは？疎な深度データで学習する画像・深度マップ同時生成手法

InterleaveThinkerとは？既存画像生成モデルにテキスト・画像交互生成を付与する強化学習手法

MaxProofとは？集団探索と生成的検証器でIMO・USAMO金メダルを超えた数学証明AI

MiniMax Sparse Attention: 1Mトークン長文脈で注意機構の計算量を28倍削減する高速化手法

SpatialClaw: コード実行を行動基盤にした空間推論エージェントとは？

Arborとは？仮説ツリー精練でAIが自律研究を実行する新フレームワーク

Manifold Power Iterationとは？MoEルーター設計を特異方向で刷新する新手法

i1とは？公開データだけで既存オープンモデルを29.5pt超える画像生成の完全レシピ

Keye-VL-2.0とは？256Kコンテキストで長尺動画を理解するオープンソースMoEモデル

Attention Amnesiaとは？ハイブリッドLLMの長距離記憶を壊すCoT学習の問題と修復法

ARMとは？離散視覚トークンと強化学習で理解・生成・編集を統合した自己回帰型マルチモーダルAI

人気記事