自己回帰型画像生成のトークナイザが抱えるテキスト文字の潰れ・顔ディテール喪失を、コンテンツ対応の局所知覚損失で解決する新手法「InsightTok」を解説します。NED精度95.83%、顔類似度でEmu3.5-IBQを超える結果を16kコードブックで達成。
VGGT-Editは、テキスト指示によるネイティブ3Dシーン編集をフィードフォワード推論で実現する新手法です。深度同期テキスト注入とレジデュアル変換ヘッドで多視点一貫性を保ちながら、従来手法比2〜120倍の速度で高品質な編集を達成します。
カメラ誘発ワープを「擬似履歴」として既存ビデオモデルに注入し、モデルの重みを変えずにカメラ制御を実現する新手法「Warp-as-History」を解説します。1本の動画でのLoRA学習でカメラ制御スコアを134.7%改善します。
NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。
動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。
LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。
訓練不要の進化的モデルマージフレームワーク「Darwin Family」が、GPQA Diamondで86.9%(1252モデル中6位)を達成。14次元ゲノムとMRI-Trust Fusionで複数LLMを重み空間で交配させ、追加学習なしに推論性能を高める革新的手法を解説します。
自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。
NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。
30Bパラメータ(3B active)のMoEモデル「SU-01」がIMO 2025・USAMO 2026で金メダルラインを達成。逆パープレキシティカリキュラムSFTから二段階RL・テスト時スケーリングへの統一レシピとその成果を解説します。
Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。
GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング