AI-Papers
VESPOとは?変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法 | AI-Papers