HumanEval AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 HumanEval

时间 详情
2026-03-27
10:57
MEMCOLLAB重大突破:跨模型记忆让Llama 3 8B在MATH500跃升至42.4%—方法解析与商业影响

据God of Prompt称,宾夕法尼亚州立大学发现当前代理记忆的关键缺陷:由单一模型推理轨迹蒸馏的记忆会夹带该模型的偏置与启发式,跨模型迁移会让性能跌破零记忆基线;据该来源报道,将7B模型的记忆给32B模型使MATH500由63.8%降至50.6%、HumanEval由68.3%降至34.1%,反向迁移同样退化。根据同一来源,MEMCOLLAB通过对比一成一败的两条跨模型轨迹,仅提取在两者中均成立的抽象不变量(而非风格与捷径),使Llama 3 8B在MATH500从27.4%升至42.4%,四项基准平均从41.7%升至53.9%。据God of Prompt报道,Qwen 7B在MATH500由52.2%升至67.0%、HumanEval由42.7%升至74.4%;HumanEval与MBPP的平均推理轮次分别从3.3降至1.5、3.1降至1.4,显示精度与推理效率双提升、推理成本下降。该来源还称,跨架构记忆构建(Qwen 32B加Llama 8B)在GSM8K上以95.2%优于同家族方案的93.6%,为企业在代码助理、数学辅导与流程自动化等场景部署跨模型记忆标准化流水线、降低token开销并提升稳健性提供了可行路径。