上海AI Lab与复旦大学联合推出POLAR预训练奖励模型,通过策略判别学习突破传统瓶颈,实验显示其在STEM任务、聊天、创意写作等场景表现显著优于现有模型,可降低训练成本,提升大模型强化学习效率。该技术突破为AI后训练阶段提供通用解决方案。