中科大与中兴突破小模型瓶颈,课程强化学习显著提升多模态推理能力
2025-04-14
中科大与中兴联合提出名为Curr-ReFT的课程式强化学习后训练范式,解决了小尺寸多模态模型在推理能力和域外泛化上的瓶颈问题。通过分阶段课程强化学习和拒绝采样自我改进策略,7B模型在多个基准测试中超越26B、38B大模型,显著提升视觉语言模型在复杂推理任务中的表现,为资源受限场景下的多模态AI应用提供新路径。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表 官方立场,不构成投资建议。如需阅读详细说明,请点击此处
