AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

マルチモーダルの記事一覧 (3ページ目) | AI-Papers

ホーム
論文解説
マルチモーダル

マルチモーダル

論文解説マルチモーダル

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。

2026年5月26日

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

論文解説マルチモーダル

Thudとは？動画AIが音を「見て推測」する欠陥を暴く反事実的診断フレームワーク

動画AIモデルが映像から音を推測する「音のClever Hans効果」を診断するThudフレームワークを解説。Shift・Mute・Swapの3種の介入で欠陥を体系的に暴き、わずか1万サンプルで28ポイントの性能向上を達成した最新研究です。

2026年5月20日

Thudとは？動画AIが音を「見て推測」する欠陥を暴く反事実的診断フレームワーク

論文解説マルチモーダル

Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

ByteDanceが提案するLanceは、画像・動画の理解・生成・編集を単一モデルで統合するフレームワークです。3Bの活性化パラメータで7BクラスのShow-o2やBAGELを複数ベンチマークで上回る性能を発揮します。

2026年5月19日

Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

論文解説マルチモーダル

PhysBrain 1.0とは？エゴセントリック映像からロボットへ物理常識を転移するVLAモデル

人間の一人称視点映像を物理常識QAへ変換しロボット制御に転移するVLAモデル「PhysBrain 1.0」が登場。Franka実機での操作成功率を47.1%から63.3%に引き上げ、複数ベンチマークで最高性能を達成しました。

2026年5月18日

PhysBrain 1.0とは？エゴセントリック映像からロボットへ物理常識を転移するVLAモデル

論文解説マルチモーダル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。

2026年5月14日

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

論文解説マルチモーダル

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。

2026年5月13日

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

論文解説マルチモーダル

OpenSearch-VLとは？マルチモーダル深層検索エージェントの完全公開訓練レシピを解説

Tencent Hunyuanが提案するマルチモーダル深層検索エージェント「OpenSearch-VL」の完全公開訓練レシピを解説。致命的意識GRPOと多ツール環境により7ベンチマークで10ポイント超の改善を達成しています。

2026年5月7日

OpenSearch-VLとは？マルチモーダル深層検索エージェントの完全公開訓練レシピを解説

論文解説マルチモーダル

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

Allen AIが公開した完全オープンVLAモデル「MolmoAct2」を解説します。VLMバックボーンMolmoERがGPT-5・Gemini Roboticsを超え、実環境でPi-0.5を上回る仕組みを詳しく紹介します。

2026年5月5日

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

論文解説マルチモーダル

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。

2026年5月3日

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

論文解説マルチモーダル

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。

2026年5月1日

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

論文解説マルチモーダル

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。

2026年4月29日

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

論文解説マルチモーダル

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。

2026年4月24日

マルチモーダル

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

Thudとは？動画AIが音を「見て推測」する欠陥を暴く反事実的診断フレームワーク

Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

PhysBrain 1.0とは？エゴセントリック映像からロボットへ物理常識を転移するVLAモデル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

OpenSearch-VLとは？マルチモーダル深層検索エージェントの完全公開訓練レシピを解説

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

人気記事