Alibaba Groupが提案するP-GenRMは、ユーザーごとの嗜好を構造化された評価チェーンに変換し、パーソナライズされた報酬モデルを実現する新手法です。テスト時スケーリング機構との組み合わせで従来手法を大幅に上回り、8Bモデルが70B規模を凌駕する成果を達成。ICLR 2026 Oralに採択されました。
Tencent Hunyuanが、強化学習で「簡単すぎる問題」を自動的に組み合わせて新たな複合問題を生成するComposition-RLを提案。4B〜30Bモデルで一貫した推論能力の向上を実現し、カリキュラム学習やクロスドメイン構成でさらなる改善を達成しました。
Shanghai Innovation Instituteが開発した50億パラメータの軽量モデル「DeepGen 1.0」は、画像生成と編集を統合的に処理し、800億パラメータのモデルを28%上回る性能を実現。独自のSCB手法と3段階学習戦略が鍵となっています。
GigaAI発表の「GigaBrain-0.5M」を解説。World Modelベース強化学習(RAMP)により従来の模倣学習を30%上回る性能を実現したVLAモデルの仕組みと、実環境での成果を紹介します。
StepFun社のオープンモデル「Step 3.5 Flash」を解説。110億の活動パラメータのみでGPT-5.2やGemini 3.0 Proに匹敵する性能を達成。スパースMoE設計と強化学習の革新に迫ります。
離散トークンをビット単位で段階的に予測する新手法「BAR」が、ImageNet-256でFID 0.99を達成。Diffusionモデルを含む従来手法を上回る生成品質と最大20倍の高速化を両立し、画像生成の新たなパラダイムを提示しました。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、複数エージェント間の協調を目的とした新しい手法「Shared Recurrent Memory Tr […]
ユーザーの好みに合わせてLLMの出力を調整する新手法TPOを提案 テスト時にユーザーのフィードバックを活用し、損失関数を用いた出力の最適化 TPOは再トレーニング不要でコスト削減を実現しながら競争力を持つ性能 論文:Te […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、仮想3D空間における映像制作を自動化するための新しいフレームワークである「FILMAGENT」を提案 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、LLM(大規模言語モデル)の推論能力を向上させるために、新たな強化学習手法とモデル構造を提案しています […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、Mixture-of-Experts (MoE) モデルの学習における「Load-balancing […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、言語モデルエージェントが自らの行動を反省し改善する能力を持つ新しい学習フレームワーク「Agent-R […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル
開発者向け検索AI「Phind 2」登場、視覚的検索強化!