人間の睡眠中の記憶統合を着想源に、LLM向け「Sleep」パラダイムを提案。Knowledge SeedingとDreamingの2段階で壊滅的忘却を抑制し、数学推論・長文脈理解など複数タスクで既存手法を上回ることを実証した。
複数の専門エージェントが役割分担して科学図表を自動生成する「Crafter」を解説。従来手法比+39ポイントの性能向上と、ラスター画像をSVGに変換するCraftEditorも同時公開。
投機的デコーディングの新手法「Domino」を解説します。並列ドラフト生成と軽量な因果補正の2段構成で、Qwen3-8BのLLM推論を最大5.8倍高速化しました。
標準的な次トークン予測(NTP)に浅い層の表現を自己教師信号とした連続監督を追加するNITPが提案されました。0.5B〜9BパラメータのLLMでMMLP-Proに5.7%・C3に6.4%の精度向上を実現しながら推論コストはゼロです。
VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing(RF)。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。
MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。
知識グラフのランダムウォークと検索軌跡を訓練データとするRL手法「LongTraceRL」が提案されました。ルーブリック報酬で推論の質を直接最適化し、4B〜30Bモデルで5つの長文脈ベンチマークを上回る性能を達成しています。
BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。
DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。
テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。
拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling(CNS)を解説。追加学習不要でFIDを最大30%改善します。
テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング