UC Berkeleyが提案するRATs(Robotics Agent Teams)は、タスク前の「遊び」で自律的にスキルを習得するロボット学習手法です。LIBERO-PROで+20.6ポイントの精度向上を実証しました。
ヴィゴツキーの教育理論「最近接発達領域(ZPD)」をAI訓練に応用したNVIDIAの手法「ZPPO」を解説します。BCQ・NCQの2つのプロンプト戦略で教師の知識を転移し、Qwen3.5の小規模モデルでVLMベンチマーク最大+9.3ppを達成しています。
人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。
人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。
検証可能な報酬からの強化学習(RLVR)で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。
4Bの軽量オーケストレータが強化学習で専門モデルを動的に選択する「Maestro」が10ベンチマーク平均70.1%を達成し、GPT-5(69.3%)やGemini-2.5-Proを上回りました。再訓練なしで未学習モデルへも汎化する拡張性が際立ちます。
RLVR訓練の重みパラメータがほぼランク1の軌跡を描くという発見に基づき、わずか15%の学習ステップを観測するだけでフル訓練と同等以上の性能を引き出すRELEX手法を解説します。
LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。
スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。
GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。
マルチモーダルRLのSFT後に生じる分布ドリフトを、知覚・推論の専門家を持つMoEディスクリミネータで修正する新パイプライン「PRISM」を解説します。Qwen3-VLで全ベンチマーク平均+4.4〜+6.0ポイントの改善を達成しました。
自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング