テキスト・画像・動画の3種類のマルチモーダル指示からLottie形式のベクターアニメーションを自動生成するフレームワーク「OmniLottie」を解説します。専用トークナイザーと200万件データセットMMLottie-2Mによる仕組みを詳しく紹介します。
オムニモーダルLLMの推論能力を訓練なしで向上させるフレームワーク「ThinkOmni」を解説します。LRM-as-a-Guide機構とStepwise Contrastive Scalingにより、MathVistaで70.2、MMAUで75.5を達成しました。
DPEは、LMMの弱点をマルチエージェントで診断・標的データ生成・強化学習のループで自律的に改善するフレームワークです。Qwen3-VLで11ベンチマーク全てで継続的な性能向上を達成しています。
エッジデバイス向け統合マルチモーダルモデル「Mobile-O」が発表されました。新設計のMobile Conditioning Projector(MCP)でiPhone上での画像生成を約3秒で実現し、GenEvalで74%のスコアを達成します。
Alibaba X-PLUGのGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%など20以上のベンチマークでオープンソース最高性能を達成。新強化学習アルゴリズムMRPOとマルチプラットフォーム対応の仕組みを解説します。
2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。
清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 Baichuan-Omni-1.5は、画像と音声、そしてテキストを処理するために統合的なアーキテクチャを用いたモデ […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、新しいフレームワーク「Dispider」を提案し、動画とLLMを統合してリアルタイムでの対話を可能にす […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、ロボットが人の指示に基づいて一般的な物体操作を行う能力を向上させる新しいアプローチ「OmniManip […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VideoRAGは、既存のRAG(Retrieval-Augmented Generation)フレームワークを動 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、数学的推論が必要なマルチモーダルな問題解決において、モデルが適切かつ信頼性の高い「思考の連鎖(Cha […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
開発者向け検索AI「Phind 2」登場、視覚的検索強化!
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル