AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

ホーム
論文解説
言語・LLM

言語・LLM

論文解説言語・LLM

Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

ByteDance Seedが発表したAgent-Worldは、MCPを活用して1,978の実世界環境を自律合成し、自己進化型の強化学習ループで23ベンチマークでGPT-4oなど商用モデルを上回る性能を実現しました。

2026年4月22日

Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

論文解説言語・LLM

推論SFTの一般化とは？「SFTは暗記のみ」を覆す条件付き実験分析

「SFTは暗記、RLは一般化」という通説を再考。長いCoTによる推論SFTでも最適化・データ品質・モデル能力の3条件が揃えばドメイン横断的な一般化が可能であることを解説します。

2026年4月12日

論文解説言語・LLM

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

スパース注意機構で文脈長を1億トークンまで線形拡張するMSAを解説。同一バックボーンのRAGを4ベンチマーク平均16%上回り、2枚のGPUで実用推論を実現した新手法です。

2026年3月28日

論文解説言語・LLM

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

成功したタスク解決を実行可能なPythonコードとして蓄積・再利用するLLMエージェントフレームワーク「AgentFactory」の仕組みと実験結果を解説します。

2026年3月20日

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

論文解説言語・LLM

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

事前学習済みモデルの重みの近傍には、タスク固有の専門家解が高密度に存在するという「Neural Thicket」現象を報告したMIT発の研究。ランダムサンプリングとアンサンブルのみでPPO・GRPOと同等性能を実現します。

2026年3月15日

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

論文解説言語・LLM

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

FlashPrefillは動的スパースアテンションでLLMのプリフィリングを高速化するフレームワークです。256Kトークンで27.78倍、4Kでも1.71倍の高速化を実現し、既存手法の弱点だった短文脈での性能劣化も解消しています。

2026年3月9日

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

論文解説言語・LLM

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

NVIDIA Blackwell GPUの非対称ハードウェアスケーリングに対応したFlashAttention-4が登場。完全非同期MMA・softmax最適化・CuTe-DSL Python実装により、cuDNN比1.3倍・Triton比2.7倍の高速化を実現した仕組みを解説します。

2026年3月8日

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

論文解説言語・LLM

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

推論候補解を粒子として扱い、PRM（プロセス報酬モデル）のスコアで逐次洗練するアルゴリズム「PRISM」を解説します。gpt-oss-20bでAIME25 90.0%・GPQA Diamond 71.4%を達成し、6倍大きなモデルと同等の性能を計算効率よく実現。

2026年3月5日

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

論文解説言語・LLM

拡散言語モデルが並列デコードで失敗する理由を解明：NAP法による根本的解決策

拡散言語モデル（DLM）が並列デコードを謳いながら自己回帰的に収束する根本原因を特定。訓練データの逐次的構造が問題と診断し、独立推論軌跡を使うNAP手法でGSM8Kの256ステップ精度を14.4ポイント改善しました。

2026年3月1日

論文解説言語・LLM

VESPOとは？変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法

LLMの強化学習訓練で問題となるポリシー陳腐化に対処するVESPOを解説します。変分定式化と分散削減を統合した閉形式カーネルにより、gbs/mbs=64という極端な条件でもGRPOを14ポイント上回る安定訓練を実現します。

2026年2月24日

論文解説言語・LLM

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

大規模推論モデルの「overthinking」問題を解決するBFS-POを解説。最大エントロピーノードでバックトラッキングし、最短正解パスを探索することでDAPO比1.37倍の高速化と精度向上を同時に達成した強化学習手法を紹介します。

2026年2月17日

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

論文解説言語・LLM

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

Qwenチームが開発した初の大規模オープンWebシミュレータ「WebWorld」を解説。106万件のWeb操作データで訓練され、WebArenaで+9.2%改善しGPT-4o相当の性能を達成した仕組みと成果を紹介します。

2026年2月17日

言語・LLM

Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

推論SFTの一般化とは？「SFTは暗記のみ」を覆す条件付き実験分析

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

拡散言語モデルが並列デコードで失敗する理由を解明：NAP法による根本的解決策

VESPOとは？変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

人気記事