NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。
LLMのバックボーンを凍結したまま8×8の連想記憶行列をDelta則で学習させる新手法「δ-mem」を解説。MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の性能向上を達成しました。
商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。
64人の数学者が設計した研究レベル数学ベンチマーク「Soohak」を解説します。最先端モデルでもGemini-3-Proが30.4%、GPT-5が26.4%止まりで、不当な問題を見抜く「Refusal Subset」ではいかなるモデルも50%未満でした。
QwenチームのQwen-Image-2.0はQwen3-VLとMultimodal Diffusion Transformerを組み合わせ、生成と編集を1モデルに統合。1,000トークン対応で多言語タイポグラフィも大幅改善しました。
Flow Matchingを言語生成に初めて本格適用した拡散言語モデル「ELF」を解説します。最終ステップまで連続埋め込み空間にとどまる設計でCFGが自然に転用可能となり、少ないトレーニングで既存DLMを上回る性能を達成しました。
拡散モデルの超深層化で発生するトークン均質化崩壊「Mean Mode Screaming」を初特定。MV-Split残差で世界初の1000層DiT安定学習とFID 2.68を達成した研究を解説します。
Test-Time Scaling戦略の設計を自動化するAutoTTSをGoogleが提案しました。LLMエージェントがオフラインリプレイ環境で反復的に戦略を探索・評価し、わずか$39.9・160分で手動設計を上回る推論戦略を発見します。
スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。
GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。
SwiftI2Vは2段階フレームワークとCSG(セグメント単位生成)を組み合わせ、2K解像度のImage-to-Video生成においてGPU処理時間を202倍削減しながらVBench-I2Vで最高スコアを達成した新手法です。RTX 4090でも実用的な運用が可能です。
Continuous-Time Distribution Matching(CDM)は、固定離散タイムステップへの依存を動的連続スケジュールで置き換えることで拡散モデルの蒸留を刷新。GANや報酬モデル不要で過平滑化を解消し、SD3-MediumとLongcat-Imageで4ステップの高品質生成を実現した新手法を解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング