DPEは、LMMの弱点をマルチエージェントで診断・標的データ生成・強化学習のループで自律的に改善するフレームワークです。Qwen3-VLで11ベンチマーク全てで継続的な性能向上を達成しています。
エッジデバイス向け統合マルチモーダルモデル「Mobile-O」が発表されました。新設計のMobile Conditioning Projector(MCP)でiPhone上での画像生成を約3秒で実現し、GenEvalで74%のスコアを達成します。
Alibaba X-PLUGのGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%など20以上のベンチマークでオープンソース最高性能を達成。新強化学習アルゴリズムMRPOとマルチプラットフォーム対応の仕組みを解説します。
2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。
清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 Baichuan-Omni-1.5は、画像と音声、そしてテキストを処理するために統合的なアーキテクチャを用いたモデ […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、新しいフレームワーク「Dispider」を提案し、動画とLLMを統合してリアルタイムでの対話を可能にす […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、ロボットが人の指示に基づいて一般的な物体操作を行う能力を向上させる新しいアプローチ「OmniManip […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VideoRAGは、既存のRAG(Retrieval-Augmented Generation)フレームワークを動 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、数学的推論が必要なマルチモーダルな問題解決において、モデルが適切かつ信頼性の高い「思考の連鎖(Cha […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、「Virgo」というマルチモーダル大規模言語モデル(MLLM)の開発を通じて、視覚推論と呼ばれる複雑な […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VITA-1.5は、音声と視覚のマルチモーダルなリアルタイムインタラクションを目指したモデルとして提案されました。 […]
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング