清華大学らが提案するCtx2Skillは、3つのLLMエージェントによるSelf-Playでコンテキスト固有スキルを人間監督なしに自動精錬するフレームワーク。CL-benchで既存手法を一貫して上回る性能向上を達成しました。
Allen AIが公開した完全オープンVLAモデル「MolmoAct2」を解説します。VLMバックボーンMolmoERがGPT-5・Gemini Roboticsを超え、実環境でPi-0.5を上回る仕組みを詳しく紹介します。
動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。
パイプライン並列化の「weight binding問題」を解消する新手法RoundPipeを解説します。GPUをステートレスなワーカープールとして扱うラウンドロビン方式で8×RTX 4090でのLLMファインチューニングを最大2.16倍高速化し、単一コンシューマーサーバーでQwen3-235BのLoRAチューニングを実現します。
UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。
9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。
MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。
推論ステップに64種の抽象トークンを使う「Abstract CoT」を解説。Qwen3-8BでMATH-500精度90.8%を保ちながら推論コストを最大11.6倍削減する後学習手法です。
CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。
離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。
ByteDance Seedが発表したAgent-Worldは、MCPを活用して1,978の実世界環境を自律合成し、自己進化型の強化学習ループで23ベンチマークでGPT-4oなど商用モデルを上回る性能を実現しました。
CVPR 2026採択。4種類のメモリ構造とBig Five性格モデルで時間的に進化するユーザープロファイルを構築し、Persona-MMEベンチマークで既存手法比22.4%向上・GPT-4oを5.2%上回るパーソナライズドマルチモーダルLLM「PersonaVLM」を解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング