圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。
動画AIモデルが映像から音を推測する「音のClever Hans効果」を診断するThudフレームワークを解説。Shift・Mute・Swapの3種の介入で欠陥を体系的に暴き、わずか1万サンプルで28ポイントの性能向上を達成した最新研究です。
ByteDanceが提案するLanceは、画像・動画の理解・生成・編集を単一モデルで統合するフレームワークです。3Bの活性化パラメータで7BクラスのShow-o2やBAGELを複数ベンチマークで上回る性能を発揮します。
人間の一人称視点映像を物理常識QAへ変換しロボット制御に転移するVLAモデル「PhysBrain 1.0」が登場。Franka実機での操作成功率を47.1%から63.3%に引き上げ、複数ベンチマークで最高性能を達成しました。
GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。
商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。
Tencent Hunyuanが提案するマルチモーダル深層検索エージェント「OpenSearch-VL」の完全公開訓練レシピを解説。致命的意識GRPOと多ツール環境により7ベンチマークで10ポイント超の改善を達成しています。
Allen AIが公開した完全オープンVLAモデル「MolmoAct2」を解説します。VLMバックボーンMolmoERがGPT-5・Gemini Roboticsを超え、実環境でPi-0.5を上回る仕組みを詳しく紹介します。
UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。
9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。
MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。
離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング