AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説

論文解説

論文解説画像

LeapAlignとは？2ステップ軌跡でFlow Matchingモデルを効率的に後訓練するアライメント手法

Flow MatchingモデルFluxの後訓練アライメントを、長い生成軌跡の2ステップへの圧縮で効率化した手法LeapAlignを解説。HPSv2.1スコアで既存手法を6ポイント超上回り、CVPR 2026に採択されました。

2026年4月19日

LeapAlignとは？2ステップ軌跡でFlow Matchingモデルを効率的に後訓練するアライメント手法

論文解説強化学習

RAD-2とは？拡散モデルとRLで衝突率56%削減を実現した自動運転プランナー

自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。

2026年4月18日

RAD-2とは？拡散モデルとRLで衝突率56%削減を実現した自動運転プランナー

論文解説マルチモーダル

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

Tencent Hunyuanが開発したHY-World 2.0は、テキスト・画像・動画から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデルです。5つの専門モジュールが連携し、オープンソースながらクローズドソースのMarbleと同等の性能を実現しました。

2026年4月17日

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

論文解説強化学習

MEDS: 過去ロールアウトの記憶とクラスタリングでLLM強化学習の多様性崩壊を解消する新手法

LLMの強化学習訓練でポリシーが同じ誤りを繰り返す「サンプリング多様性崩壊」を解消するMEDSを紹介します。過去ロールアウトの中間表現を密度ベースクラスタリングで分析し動的ペナルティを付与することで、pass@1を最大4.13ポイント向上させた新手法です。

2026年4月15日

MEDS: 過去ロールアウトの記憶とクラスタリングでLLM強化学習の多様性崩壊を解消する新手法

論文解説マルチモーダル

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

Allen Institute for AI が発表した WildDet3D は、単一RGB画像からオープンワールドの3D物体検出を行うフレームワークです。テキスト・点・ボックスの3種プロンプトに対応し、複数ベンチマークで最高精度を達成しました。

2026年4月14日

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

論文解説動画

Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

Matrix-Game 3.0は、Unreal Engineとゲームデータを活用した大規模学習と3段階の推論最適化により、720p・最大40FPSのリアルタイムインタラクティブ動画生成を実現した世界モデルです。ゲームや自動運転分野への実用化が注目されます。

2026年4月13日

Matrix-Game 3.0とは？720p・最大40FPSでリアルタイムを実現するインタラクティブワールドモデル

論文解説言語・LLM

推論SFTの一般化とは？「SFTは暗記のみ」を覆す条件付き実験分析

「SFTは暗記、RLは一般化」という通説を再考。長いCoTによる推論SFTでも最適化・データ品質・モデル能力の3条件が揃えばドメイン横断的な一般化が可能であることを解説します。

2026年4月12日

推論SFTの一般化とは？「SFTは暗記のみ」を覆す条件付き実験分析

論文解説マルチモーダル

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

Tencent Hunyuanが発表したロボット専用VLM「HY-Embodied-0.5」を解説します。MoTアーキテクチャの仕組みから22ベンチマーク中16項目での最優秀達成、実ロボット操作の検証結果まで詳しく紹介します。

2026年4月11日

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

論文解説強化学習

RAGEN-2とは？「テンプレート崩壊」を相互情報量で診断するエージェントRL改善手法

Stanford・UW・Microsoftの研究チームが提案したRAGEN-2は、エントロピーでは検出できない「テンプレート崩壊」という新失敗モードを相互情報量で診断し、SNR-Awareフィルタリングで修正します。

2026年4月10日

RAGEN-2とは？「テンプレート崩壊」を相互情報量で診断するエージェントRL改善手法

論文解説動画

VOIDとは？物理的インタラクションを因果推論で除去するNetflix動画編集フレームワーク

Netflixが開発したVOIDは、動画から物体を削除する際に衝突・接触などの物理的インタラクションの因果連鎖ごと除去する手法です。

2026年4月6日

VOIDとは？物理的インタラクションを因果推論で除去するNetflix動画編集フレームワーク

論文解説強化学習

CORALとは？自律マルチエージェント進化で探索問題の改善率を最大10倍に高める新フレームワーク

CORALは固定ヒューリスティクスに依存せず、LLMエージェントが共有メモリと非同期実行で自律的に協調進化する新フレームワークです。ニューラルアーキテクチャ探索、データキュレーション、強化学習の3領域で従来手法比3〜10倍の改善率を達成し、GitHubでコードが公開されています。

2026年4月5日

CORALとは？自律マルチエージェント進化で探索問題の改善率を最大10倍に高める新フレームワーク

論文解説マルチモーダル

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

単視点3D生成で問題だった裏面の「確率的生成」を解決するKnow3Dを解説。Qwen2.5-VLのMMDiT中間層hidden statesを3D生成モデルへ注入し、HY3D-BenchでSOTA超えを達成した手法を紹介します。

2026年3月31日

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

前へ
1
…
13
14
15
…
25
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

LLMはなぜ日本文化に偏る？欧州研究が明かすAIの隠れた文化バイアス
2026年4月30日
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
2026年5月31日
MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
2026年5月5日
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
2026年5月17日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日