上海AI Lab与复旦大学联合推出POLAR模型突破AI奖励建模技术瓶颈

2025-07-10

上海AI Lab与复旦大学联合推出名为POLAR的预训练奖励模型，通过策略判别学习方法突破传统奖励建模瓶颈。该模型采用对比学习预训练策略分布差异，摆脱对人工偏好数据依赖，仅需少量微调即可对齐人类偏好。实验显示其在STEM任务、聊天、创意写作等场景表现显著优于现有模型，且参数扩展性良好。该技术可提升大模型强化学习效率，降低训练成本，为AI后训练阶段提供更通用的解决方案。

查看完整舆情解析

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表官方立场，不构成投资建议。如需阅读详细说明，请点击此处

上海AI Lab与复旦大学联合推出POLAR模型 突破AI奖励建模技术瓶颈

理财有风险，投资需谨慎

上海AI Lab与复旦大学联合推出POLAR模型突破AI奖励建模技术瓶颈