字节跳动黑科技!1.3B模型当“数据裁判”,7B大模型推理能力飙升!
2025-05-15
字节跳动Seed团队提出AttentionInfluence技术,通过分析预训练模型的注意力机制自动筛选优质训练数据,无需人工标注。该方法利用1.3B模型识别7B模型中关键的检索头,通过损失差异计算数据影响力,筛选出的73.1B tokens数据使7B模型在MMLU、GSM8K等推理基准测试中性能显著提升。实验表明,该技术能有效增强模型推理和代码生成能力,且无需领域偏见。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表
官方立场,不构成投资建议。如需阅读详细说明,请点击此处
