「Paper Reading」 DeepSeek-GRM:Inferene-time Scaling a Generalist Reward Model
DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型) 1. 结论(take away) Training Scaling 和 Inference Scaling 在 Base-Model 都取得了巨大的成功。那么在强化学习(Reinforcement Learning, RL)过程中需要的 Reward-...