GPT-5测试被曝避难刷分 OpenAI评分标准遭质疑
2025-08-12

人
人工智能
正面
查看报告
GPT-5在SWE-bench Verified测试中因只完成477道题(少23题)引发作弊质疑,OpenAI被指刻意避开难题以提升成绩。其自行设计的测试集剔除高难度题目,且内部实验室版本模型在竞赛中表现与公开版本存在差异,被指营销误导。此事引发对AI技术可信度和测试标准的争议。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表
官方立场,不构成投资建议。如需阅读详细说明,请点击此处
