AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説
マルチモーダル

マルチモーダル

論文解説マルチモーダル

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

CVPR 2026採択。4種類のメモリ構造とBig Five性格モデルで時間的に進化するユーザープロファイルを構築し、Persona-MMEベンチマークで既存手法比22.4%向上・GPT-4oを5.2%上回るパーソナライズドマルチモーダルLLM「PersonaVLM」を解説します。

2026年4月20日

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

論文解説マルチモーダル

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

Tencent Hunyuanが開発したHY-World 2.0は、テキスト・画像・動画から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデルです。5つの専門モジュールが連携し、オープンソースながらクローズドソースのMarbleと同等の性能を実現しました。

2026年4月17日

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

論文解説マルチモーダル

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

Allen Institute for AI が発表した WildDet3D は、単一RGB画像からオープンワールドの3D物体検出を行うフレームワークです。テキスト・点・ボックスの3種プロンプトに対応し、複数ベンチマークで最高精度を達成しました。

2026年4月14日

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

論文解説マルチモーダル

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

Tencent Hunyuanが発表したロボット専用VLM「HY-Embodied-0.5」を解説します。MoTアーキテクチャの仕組みから22ベンチマーク中16項目での最優秀達成、実ロボット操作の検証結果まで詳しく紹介します。

2026年4月11日

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

論文解説マルチモーダル

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

単視点3D生成で問題だった裏面の「確率的生成」を解決するKnow3Dを解説。Qwen2.5-VLのMMDiT中間層hidden statesを3D生成モデルへ注入し、HY3D-BenchでSOTA超えを達成した手法を紹介します。

2026年3月31日

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

論文解説マルチモーダル

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

InternLMが発表したIntern-S1-Proは、MoEアーキテクチャで1兆パラメータを実現したオープンソース初の科学マルチモーダル基盤モデルです。化学・材料科学・生命科学など100以上の専門タスクでプロプライエタリモデルを上回る性能を達成しました。

2026年3月29日

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

論文解説マルチモーダル

HopChainとは？マルチホップデータ合成でVLMの汎化推論能力を高めるQwen新手法

Qwen研究チーム提案の「HopChain」は、複数の推論ステップが論理的に連鎖するマルチホップデータを自動合成してVLMを訓練する4段階パイプライン。24ベンチマーク中20個で性能改善を実現し、超長CoT領域では50ポイント超の向上を達成します。

2026年3月24日

HopChainとは？マルチホップデータ合成でVLMの汎化推論能力を高めるQwen新手法

論文解説マルチモーダル

VEGA-3Dとは？動画生成モデルの暗黙的3D知識をMLLMのシーン理解に活かす新手法

動画生成モデルが時間的整合性のある映像を生成するために習得した暗黙的な3D構造知識を、明示的な3D監督なしでMLLMへ注入するVEGA-3Dを解説します。複数のシーン理解ベンチマークで既存手法を上回る性能を達成しました。

2026年3月22日

VEGA-3Dとは？動画生成モデルの暗黙的3D知識をMLLMのシーン理解に活かす新手法

論文解説マルチモーダル

DVDとは？ビデオ拡散モデルの生成的事前知識を深度推定に転用する世界初フレームワーク

事前学習済みビデオ拡散モデルを決定論的な深度回帰器に変換する世界初フレームワーク「DVD」を解説します。識別モデル比163倍少ないデータでNYUv2・KITTIなど複数ベンチマークのゼロショットSOTAを達成した3つの核心設計を紹介します。

2026年3月14日

DVDとは？ビデオ拡散モデルの生成的事前知識を深度推定に転用する世界初フレームワーク

論文解説マルチモーダル

Penguin-VLとは？CLIPを捨てLLM初期化ビジョンエンコーダでVLMの効率限界に挑む

Tencent AILabが提案するPenguin-VLは、CLIPなどの対比学習エンコーダを廃しLLM初期化のビジョンエンコーダを採用。DocVQAやChartQAなど文書・OCR系ベンチマークでQwen3-VLを上回る性能を2B規模で実現します。

2026年3月10日

Penguin-VLとは？CLIPを捨てLLM初期化ビジョンエンコーダでVLMの効率限界に挑む

論文解説マルチモーダル

OmniLottieとは？マルチモーダル指示からLottieアニメーションを自動生成する新フレームワーク

テキスト・画像・動画の3種類のマルチモーダル指示からLottie形式のベクターアニメーションを自動生成するフレームワーク「OmniLottie」を解説します。専用トークナイザーと200万件データセットMMLottie-2Mによる仕組みを詳しく紹介します。

2026年3月4日

OmniLottieとは？マルチモーダル指示からLottieアニメーションを自動生成する新フレームワーク

論文解説マルチモーダル

ThinkOmniとは？訓練不要でオムニモーダルLLMの推論能力を強化するガイダンス・デコーディング

オムニモーダルLLMの推論能力を訓練なしで向上させるフレームワーク「ThinkOmni」を解説します。LRM-as-a-Guide機構とStepwise Contrastive Scalingにより、MathVistaで70.2、MMAUで75.5を達成しました。

2026年3月2日

ThinkOmniとは？訓練不要でオムニモーダルLLMの推論能力を強化するガイダンス・デコーディング

前へ
1
2
3
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
2026年4月4日
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
2026年2月19日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
2026年2月23日
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
2026年2月12日