250名以上の業界専門家と共同設計した1,490タスクで構成されるAIエージェント評価ベンチマーク「ALE」を解説します。最良モデルでも全体合格率26.2%にとどまる結果が示す、現在のAIエージェントの実力と今後の課題を詳しく紹介します。
LLMのChain-of-Thought推論をテキストから画像に変換するOptical Reasoningを解説。タイポグラフィ型・グラフィカル型の2方式で言語タスク28.57%、マルチモーダルタスク16%のトークン削減を実証します。
Microsoft Researchらが提案するMirageは、動画ワールドモデルのメモリをピクセルではなく潜在空間の3D座標に直接持つことで、従来比10.57倍の高速化と55倍のメモリ削減を実現しました。
知覚と推論を分離するフレームワーク「MemDreamer」が、全文入力の2%というコンテキスト量で長時間動画理解の精度を12.5ポイント向上し、4つのベンチマークでSOTAを達成しました。
連続潜在空間で音声をモデル化する20億パラメータのTTS基盤モデルdots.ttsを解説。AudioVAEと自己補正後学習で中国語WER 0.94%・英語WER 1.30%を達成し、初音遅延85msも実現。Apache 2.0で完全公開予定。
タスク固有の教師データなしでLLMエージェントがスキルを自己構築する「OpenSkill」を解説。SkillsBenchで43.6%のパス率を達成し、モデル間のスキル転移も実証しました。
拡散モデルの生成タイムラインをde Boorの等分配原理で自動分割する「複雑性均衡拡散分割(CBS)」を解説します。SiT-XL/2でFIDを35%改善しながら推論コストは変わりません。
Dream.exeは8種類の動画生成モデルを101件のロボット操作タスクで評価し、視覚的品質と物理的実行成功率が無相関(r=−0.03)という事実を実証した新評価フレームワークです。
Goedel-ArchitectはLean 4形式証明エージェント。補題の依存グラフを生成・洗練し、IMO 2025の6問中4問・MiniF2F-testで99.2%を達成。類似システムより最大500倍コスト効率に優れます。
世界シミュレーターを外部ツールとして呼び出し「未見視点の画像」を生成してから推論するVLMフレームワーク「Astra」を解説。2段階の強化学習でMMSI-Benchの精度を+9.0点改善した仕組みを紹介します。
ハイパーネットワークがリポジトリ固有のLoRAアダプターを自動生成する「Code2LoRA」を解説。推論時のトークンオーバーヘッドなしに+5.2ポイントの改善を達成した仕組みと、604リポジトリのベンチマーク「RepoPeftBench」を紹介します。
視覚言語モデルの動画イベント予測に、言語トークンと視覚潜在スパンを交互生成する「Future-L1」を紹介。FutureBenchでQwen3-VL-8Bを61.0→85.4(+24.4点)に改善した手法の仕組みを解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング