AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説
強化学習

強化学習

論文解説強化学習

RAD-2とは？拡散モデルとRLで衝突率56%削減を実現した自動運転プランナー

自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。

2026年4月18日

RAD-2とは？拡散モデルとRLで衝突率56%削減を実現した自動運転プランナー

論文解説強化学習

MEDS: 過去ロールアウトの記憶とクラスタリングでLLM強化学習の多様性崩壊を解消する新手法

LLMの強化学習訓練でポリシーが同じ誤りを繰り返す「サンプリング多様性崩壊」を解消するMEDSを紹介します。過去ロールアウトの中間表現を密度ベースクラスタリングで分析し動的ペナルティを付与することで、pass@1を最大4.13ポイント向上させた新手法です。

2026年4月15日

MEDS: 過去ロールアウトの記憶とクラスタリングでLLM強化学習の多様性崩壊を解消する新手法

論文解説強化学習

RAGEN-2とは？「テンプレート崩壊」を相互情報量で診断するエージェントRL改善手法

Stanford・UW・Microsoftの研究チームが提案したRAGEN-2は、エントロピーでは検出できない「テンプレート崩壊」という新失敗モードを相互情報量で診断し、SNR-Awareフィルタリングで修正します。

2026年4月10日

RAGEN-2とは？「テンプレート崩壊」を相互情報量で診断するエージェントRL改善手法

論文解説強化学習

CORALとは？自律マルチエージェント進化で探索問題の改善率を最大10倍に高める新フレームワーク

CORALは固定ヒューリスティクスに依存せず、LLMエージェントが共有メモリと非同期実行で自律的に協調進化する新フレームワークです。ニューラルアーキテクチャ探索、データキュレーション、強化学習の3領域で従来手法比3〜10倍の改善率を達成し、GitHubでコードが公開されています。

2026年4月5日

CORALとは？自律マルチエージェント進化で探索問題の改善率を最大10倍に高める新フレームワーク

論文解説強化学習

OpenClaw-RLとは？次状態信号から報酬を自動抽出し任意のRLエージェントを訓練する統合フレームワーク

Mengdi Wang氏らが提案するOpenClaw-RLは、ユーザー返答やツール出力などの次状態信号からPRMでスカラー報酬、OPDでトークン教師信号を自動抽出し、個人エージェント実験でパーソナライゼーションスコア0.81を達成したRLエージェント訓練フレームワークです。

2026年3月13日

OpenClaw-RLとは？次状態信号から報酬を自動抽出し任意のRLエージェントを訓練する統合フレームワーク

論文解説強化学習

CUDA Agentとは？強化学習でGPUカーネルを自動最適化してtorch.compileを超える新手法

ByteDance Seedが開発したCUDA Agentは、アジェンティック強化学習でGPUカーネルを自動生成・最適化します。KernelBenchで幾何平均2.11倍のスピードアップを達成し、Claude Opus 4.5やGemini 3 Proなどフロンティアモデルを大きく凌駕する性能を実証しました。

2026年3月3日

CUDA Agentとは？強化学習でGPUカーネルを自動最適化してtorch.compileを超える新手法

論文解説強化学習

EMPO²とは？メモリ拡張とオン/オフポリシーRLでLLMエージェントの探索能力を大幅改善する新手法

ICLR 2026採択のEMPO²は、LLMエージェントのRL訓練にメモリ拡張とオン/オフポリシーのハイブリッド最適化を導入した新フレームワークです。ScienceWorldではGRPO比128.6%の性能向上を実現しています。

2026年2月28日

EMPO²とは？メモリ拡張とオン/オフポリシーRLでLLMエージェントの探索能力を大幅改善する新手法

論文解説強化学習

P-GenRM: ユーザーごとの好みに適応する生成報酬モデルがICLR 2026 Oralに採択

Alibaba Groupが提案するP-GenRMは、ユーザーごとの嗜好を構造化された評価チェーンに変換し、パーソナライズされた報酬モデルを実現する新手法です。テスト時スケーリング機構との組み合わせで従来手法を大幅に上回り、8Bモデルが70B規模を凌駕する成果を達成。ICLR 2026 Oralに採択されました。

2026年2月16日

P-GenRM: ユーザーごとの好みに適応する生成報酬モデルがICLR 2026 Oralに採択

論文解説強化学習

Composition-RL: 簡単な問題を組み合わせてLLMの推論力を伸ばす強化学習フレームワーク

Tencent Hunyuanが、強化学習で「簡単すぎる問題」を自動的に組み合わせて新たな複合問題を生成するComposition-RLを提案。4B〜30Bモデルで一貫した推論能力の向上を実現し、カリキュラム学習やクロスドメイン構成でさらなる改善を達成しました。

2026年2月15日

Composition-RL: 簡単な問題を組み合わせてLLMの推論力を伸ばす強化学習フレームワーク

論文解説強化学習

GigaBrain-0.5Mとは？World Model強化学習で次世代ロボット制御を実現するVLA

GigaAI発表の「GigaBrain-0.5M」を解説。World Modelベース強化学習（RAMP）により従来の模倣学習を30%上回る性能を実現したVLAモデルの仕組みと、実環境での成果を紹介します。

2026年2月14日

GigaBrain-0.5Mとは？World Model強化学習で次世代ロボット制御を実現するVLA

強化学習論文解説

エージェント協調強化の新技術「SRMT」開発成功

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この論文では、複数エージェント間の協調を目的とした新しい手法「Shared Recurrent Memory Tr […]

2025年3月31日

エージェント協調強化の新技術「SRMT」開発成功

強化学習論文解説

強化学習で新次元に達したDeepSeek-R1の性能がGPT-4超え

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要本論文では、LLM（大規模言語モデル）の推論能力を向上させるために、新たな強化学習手法とモデル構造を提案しています […]

2025年3月31日

強化学習で新次元に達したDeepSeek-R1の性能がGPT-4超え

前へ
1
2
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
2026年4月4日
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
2026年2月19日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
2026年2月23日
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
2026年2月12日