動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。
50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。
AgentDoG 1.5は、コード実行エージェントの安全性を評価する軽量フレームワークです。影響関数ベースのデータ浄化で、0.8B〜8Bの小型モデルがGPT-5.4と同等の安全判定精度を達成しました。
Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。
VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。
NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。
外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。
Metaが発表したMobileMoEは、モバイル向けMixture-of-Experts(MoE)アーキテクチャのスケーリング則を体系化した研究です。密モデル比2〜4倍少ない推論FLOPsを実現し、実機で最大3.8倍の高速デコードを達成した手法と成果を解説します。
マスク領域Transformer(MRT)は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。
229.9Bパラメータのうちトークンあたり9.8B(約4.3%)のみ起動する超疎MoEモデルMiniMax-M2を解説します。AIME 2026で94.2%、GPQA-Diamondで89.8%を達成し、大幅に少ない計算量でフロンティアAIと同等の性能を実現しました。
人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。
三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング