HumanEval AI快讯列表

HumanEval AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于 HumanEval

时间	详情
2026-03-27 10:57	MEMCOLLAB重大突破：跨模型记忆让Llama 3 8B在MATH500跃升至42.4%—方法解析与商业影响据God of Prompt称，宾夕法尼亚州立大学发现当前代理记忆的关键缺陷：由单一模型推理轨迹蒸馏的记忆会夹带该模型的偏置与启发式，跨模型迁移会让性能跌破零记忆基线；据该来源报道，将7B模型的记忆给32B模型使MATH500由63.8%降至50.6%、HumanEval由68.3%降至34.1%，反向迁移同样退化。根据同一来源，MEMCOLLAB通过对比一成一败的两条跨模型轨迹，仅提取在两者中均成立的抽象不变量（而非风格与捷径），使Llama 3 8B在MATH500从27.4%升至42.4%，四项基准平均从41.7%升至53.9%。据God of Prompt报道，Qwen 7B在MATH500由52.2%升至67.0%、HumanEval由42.7%升至74.4%；HumanEval与MBPP的平均推理轮次分别从3.3降至1.5、3.1降至1.4，显示精度与推理效率双提升、推理成本下降。该来源还称，跨架构记忆构建（Qwen 32B加Llama 8B）在GSM8K上以95.2%优于同家族方案的93.6%，为企业在代码助理、数学辅导与流程自动化等场景部署跨模型记忆标准化流水线、降低token开销并提升稳健性提供了可行路径。原文链接

时间

详情

2026-03-27
10:57

MEMCOLLAB重大突破：跨模型记忆让Llama 3 8B在MATH500跃升至42.4%—方法解析与商业影响

据God of Prompt称，宾夕法尼亚州立大学发现当前代理记忆的关键缺陷：由单一模型推理轨迹蒸馏的记忆会夹带该模型的偏置与启发式，跨模型迁移会让性能跌破零记忆基线；据该来源报道，将7B模型的记忆给32B模型使MATH500由63.8%降至50.6%、HumanEval由68.3%降至34.1%，反向迁移同样退化。根据同一来源，MEMCOLLAB通过对比一成一败的两条跨模型轨迹，仅提取在两者中均成立的抽象不变量（而非风格与捷径），使Llama 3 8B在MATH500从27.4%升至42.4%，四项基准平均从41.7%升至53.9%。据God of Prompt报道，Qwen 7B在MATH500由52.2%升至67.0%、HumanEval由42.7%升至74.4%；HumanEval与MBPP的平均推理轮次分别从3.3降至1.5、3.1降至1.4，显示精度与推理效率双提升、推理成本下降。该来源还称，跨架构记忆构建（Qwen 32B加Llama 8B）在GSM8K上以95.2%优于同家族方案的93.6%，为企业在代码助理、数学辅导与流程自动化等场景部署跨模型记忆标准化流水线、降低token开销并提升稳健性提供了可行路径。

原文链接