AI-Papers
P-GenRM: ユーザーごとの好みに適応する生成報酬モデルがICLR 2026 Oralに採択 | AI-Papers