分子とタンパク質の配列・3D構造・自然言語テキストを単一モデルで処理する「BioMatrix」を解説。80のタスク中77でSOTAまたは競合性能を達成した、生物学向けマルチモーダル基盤モデルの仕組みと成果を紹介します。
拡散言語モデルの並列デコードを活かし、画像内の複数マスク領域を一括でキャプション生成するPerceptionDLMを解説します。スループット3.44倍を達成し、新ベンチマークParaDLC-Benchで62.4%の精度を記録しています。
視覚言語モデルが苦手とする3D空間推論を、階層的ツールと二重メモリで克服する「S-Agent」が登場。8Bの小型モデルでもGPT-5.4やGemini 3と同等の空間知能スコアを達成した仕組みを解説します。
ロボット行動制御にビデオ生成は必要か、を実験で問い直したImageWAM。画像編集のKVキャッシュを行動予測に活用するだけでFLOPs 1/6・遅延1/4(263ms)を達成し、実機ロボットでも84.5%の成功率を記録しました。
人間の一人称視点映像(エゴセントリック映像)を適切に処理すると実ロボットデータを凌駕することを実証した「HumanScale」を解説。分布外タスクで90%の成功率向上を達成し、身体的AIのデータ収集コスト問題に新たな解法を示します。
JD.comが開発したJoyAI-VL-Interactionは、映像ストリームを1秒単位で監視し「沈黙・応答・委譲」を自律的に判断するプロアクティブVLMです。DouBaoに77.6%、Geminiに87.9%の勝率を達成し、モデルと学習レシピを全公開しました。
わずか 1.5M〜34.5M のパラメータを持つ軽量 OCR システム PP-OCRv6 が Qwen3-VL-235B や GPT-5.5 を検出・認識の両面で上回りました。MetaFormer 設計と構造的再パラメータ化による技術的な仕組みを解説します。
既存の画像生成モデル(FLUX等)を改変せずに活用し、テキストと画像を交互生成する能力を付与するマルチエージェントフレームワーク「InterleaveThinker」を解説。WISEスコアが0.47から0.73へ大幅に改善しました。
NVIDIAが提案する「SpatialClaw」は、PythonカーネルをAIの行動インターフェースに採用した空間推論エージェントです。20のベンチマークで従来手法を+11.2ポイント上回り、6種のVLMに追加学習なしで適用できます。
Kuaishouが開発した30B MoE型マルチモーダルモデル「Keye-VL-2.0」を解説します。3Bのアクティブパラメータで256Kコンテキストを処理し、LongVideoBenchで235B超のモデルを上回る長尺動画理解性能を実現しました。
ARMは7Bパラメータの単一モデルで画像の理解・生成・編集を統合した自己回帰型マルチモーダルAIです。独自の離散視覚トークナイザーと強化学習でWISE総合スコアが0.50から0.56に向上し、コードも公開されています。
LLMのChain-of-Thought推論をテキストから画像に変換するOptical Reasoningを解説。タイポグラフィ型・グラフィカル型の2方式で言語タスク28.57%、マルチモーダルタスク16%のトークン削減を実証します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング