AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

ホーム
論文解説
マルチモーダル

マルチモーダル

論文解説マルチモーダル

DPEとは？大規模マルチモーダルモデルの弱点を診断して自律的に反復改善するフレームワーク

DPEは、LMMの弱点をマルチエージェントで診断・標的データ生成・強化学習のループで自律的に改善するフレームワークです。Qwen3-VLで11ベンチマーク全てで継続的な性能向上を達成しています。

2026年2月28日

DPEとは？大規模マルチモーダルモデルの弱点を診断して自律的に反復改善するフレームワーク

論文解説マルチモーダル

Mobile-Oとは？iPhoneで動くマルチモーダル理解・生成統合の軽量AIモデル

エッジデバイス向け統合マルチモーダルモデル「Mobile-O」が発表されました。新設計のMobile Conditioning Projector（MCP）でiPhone上での画像生成を約3秒で実現し、GenEvalで74%のスコアを達成します。

2026年2月25日

Mobile-Oとは？iPhoneで動くマルチモーダル理解・生成統合の軽量AIモデル

論文解説マルチモーダル

GUI-Owl-1.5：3プラットフォーム対応GUIエージェントが20超ベンチマークでオープンSOTA

Alibaba X-PLUGのGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%など20以上のベンチマークでオープンソース最高性能を達成。新強化学習アルゴリズムMRPOとマルチプラットフォーム対応の仕組みを解説します。

2026年2月21日

GUI-Owl-1.5：3プラットフォーム対応GUIエージェントが20超ベンチマークでオープンSOTA

論文解説マルチモーダル

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。

2026年2月19日

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

論文解説マルチモーダル

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。

2026年2月18日

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

マルチモーダル論文解説

【Baichuan-Omni-1.5】画像・音声・テキストを統合するマルチモーダルモデル

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要 Baichuan-Omni-1.5は、画像と音声、そしてテキストを処理するために統合的なアーキテクチャを用いたモデ […]

2025年2月3日

【Baichuan-Omni-1.5】画像・音声・テキストを統合するマルチモーダルモデル

マルチモーダル論文解説

【Dispider】動画とLLMを統合してリアルタイム対話を実現するフレームワーク

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要本論文では、新しいフレームワーク「Dispider」を提案し、動画とLLMを統合してリアルタイムでの対話を可能にす […]

2025年2月2日

【Dispider】動画とLLMを統合してリアルタイム対話を実現するフレームワーク

マルチモーダル論文解説

視覚言語モデル活用を活用しロボ操作を改善する「OmniManip」

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要本研究では、ロボットが人の指示に基づいて一般的な物体操作を行う能力を向上させる新しいアプローチ「OmniManip […]

2025年1月31日

マルチモーダル論文解説

動画に対応したRAG手法「VideoRAG」で視覚情報の活用の質が向上

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要 VideoRAGは、既存のRAG（Retrieval-Augmented Generation）フレームワークを動 […]

2025年1月31日

マルチモーダル論文解説

データ拡張で進化する数理モデルURSA！数式処理や幾何学的問題でGTP-4を上回る？

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この論文では、数学的推論が必要なマルチモーダルな問題解決において、モデルが適切かつ信頼性の高い「思考の連鎖（Cha […]

2025年1月30日

データ拡張で進化する数理モデルURSA！数式処理や幾何学的問題でGTP-4を上回る？

マルチモーダル論文解説

長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要本研究では、「Virgo」というマルチモーダル大規模言語モデル（MLLM）の開発を通じて、視覚推論と呼ばれる複雑な […]

2025年1月28日

マルチモーダル論文解説

【VITA-1.5】音声と視覚の統合技術で人と機械の自然な対話を実現

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要 VITA-1.5は、音声と視覚のマルチモーダルなリアルタイムインタラクションを目指したモデルとして提案されました。 […]

2025年1月28日

マルチモーダル

DPEとは？大規模マルチモーダルモデルの弱点を診断して自律的に反復改善するフレームワーク

Mobile-Oとは？iPhoneで動くマルチモーダル理解・生成統合の軽量AIモデル

GUI-Owl-1.5：3プラットフォーム対応GUIエージェントが20超ベンチマークでオープンSOTA

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

【Baichuan-Omni-1.5】画像・音声・テキストを統合するマルチモーダルモデル

【Dispider】動画とLLMを統合してリアルタイム対話を実現するフレームワーク

視覚言語モデル活用を活用しロボ操作を改善する「OmniManip」

動画に対応したRAG手法「VideoRAG」で視覚情報の活用の質が向上

データ拡張で進化する数理モデルURSA！数式処理や幾何学的問題でGTP-4を上回る？

長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案

【VITA-1.5】音声と視覚の統合技術で人と機械の自然な対話を実現

人気記事