ByteDance Seedが開発したCUDA Agentは、アジェンティック強化学習でGPUカーネルを自動生成・最適化します。KernelBenchで幾何平均2.11倍のスピードアップを達成し、Claude Opus 4.5やGemini 3 Proなどフロンティアモデルを大きく凌駕する性能を実証しました。
ICLR 2026採択のEMPO²は、LLMエージェントのRL訓練にメモリ拡張とオン/オフポリシーのハイブリッド最適化を導入した新フレームワークです。ScienceWorldではGRPO比128.6%の性能向上を実現しています。
Alibaba Groupが提案するP-GenRMは、ユーザーごとの嗜好を構造化された評価チェーンに変換し、パーソナライズされた報酬モデルを実現する新手法です。テスト時スケーリング機構との組み合わせで従来手法を大幅に上回り、8Bモデルが70B規模を凌駕する成果を達成。ICLR 2026 Oralに採択されました。
Tencent Hunyuanが、強化学習で「簡単すぎる問題」を自動的に組み合わせて新たな複合問題を生成するComposition-RLを提案。4B〜30Bモデルで一貫した推論能力の向上を実現し、カリキュラム学習やクロスドメイン構成でさらなる改善を達成しました。
GigaAI発表の「GigaBrain-0.5M」を解説。World Modelベース強化学習(RAMP)により従来の模倣学習を30%上回る性能を実現したVLAモデルの仕組みと、実環境での成果を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、複数エージェント間の協調を目的とした新しい手法「Shared Recurrent Memory Tr […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、LLM(大規模言語モデル)の推論能力を向上させるために、新たな強化学習手法とモデル構造を提案しています […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、言語モデルエージェントが自らの行動を反省し改善する能力を持つ新しい学習フレームワーク「Agent-R […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、科学分野における自動化された実験設計とモデル発見を支援するフレームワーク「Boxing Gym」を提 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、グラフ生成タスクに特化した新たな手法「Graph Generative Pre-trained Tra […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、大規模言語モデル(LLM)が複雑な推論能力を向上させるための新たなフレームワークである「Meta C […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 論文「REINFORCE++: A Simple and Efficient Approach for Align […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
開発者向け検索AI「Phind 2」登場、視覚的検索強化!
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル