AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

ホーム
論文解説

論文解説

論文解説マルチモーダル

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。

2026年5月30日

論文解説画像

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。

2026年5月29日

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

論文解説言語・LLM

AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

AgentDoG 1.5は、コード実行エージェントの安全性を評価する軽量フレームワークです。影響関数ベースのデータ浄化で、0.8B〜8Bの小型モデルがGPT-5.4と同等の安全判定精度を達成しました。

2026年5月29日

AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

論文解説マルチモーダル

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。

2026年5月29日

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

論文解説マルチモーダル

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。

2026年5月28日

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

論文解説マルチモーダル

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。

2026年5月28日

論文解説マルチモーダル

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。

2026年5月28日

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

論文解説言語・LLM

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

Metaが発表したMobileMoEは、モバイル向けMixture-of-Experts（MoE）アーキテクチャのスケーリング則を体系化した研究です。密モデル比2〜4倍少ない推論FLOPsを実現し、実機で最大3.8倍の高速デコードを達成した手法と成果を解説します。

2026年5月27日

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

論文解説画像

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

マスク領域Transformer（MRT）は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。

2026年5月27日

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

論文解説言語・LLM

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

229.9Bパラメータのうちトークンあたり9.8B（約4.3%）のみ起動する超疎MoEモデルMiniMax-M2を解説します。AIME 2026で94.2%、GPQA-Diamondで89.8%を達成し、大幅に少ない計算量でフロンティアAIと同等の性能を実現しました。

2026年5月27日

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

論文解説強化学習

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。

2026年5月26日

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

論文解説画像

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。

2026年5月26日

論文解説

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

CollectionLoRAとは？50種の画像効果LoRAを1モデルに統合する新手法

AgentDoG 1.5とは？8B以下の軽量モデルでGPT-5.4級エージェント安全を実現する新手法

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

人気記事