上海AI Lab与复旦大学联合推出POLAR模型 突破AI奖励建模技术瓶颈
2025-07-10

A
AI语料
弱中性
查看报告
上海AI Lab与复旦大学联合推出名为POLAR的预训练奖励模型,通过策略判别学习方法突破传统奖励建模瓶颈。该模型采用对比学习预训练策略分布差异,摆脱对人工偏好数据依赖,仅需少量微调即可对齐人类偏好。实验显示其在STEM任务、聊天、创意写作等场景表现显著优于现有模型,且参数扩展性良好。该技术可提升大模型强化学习效率,降低训练成本,为AI后训练阶段提供更通用的解决方案。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表
官方立场,不构成投资建议。如需阅读详细说明,请点击此处
