Llama3 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 Llama3

时间 详情
2026-03-27
10:57
MEMCOLLAB重大突破:跨模型记忆让Llama 3 8B在MATH500跃升至42.4%—方法解析与商业影响

据God of Prompt称,宾夕法尼亚州立大学发现当前代理记忆的关键缺陷:由单一模型推理轨迹蒸馏的记忆会夹带该模型的偏置与启发式,跨模型迁移会让性能跌破零记忆基线;据该来源报道,将7B模型的记忆给32B模型使MATH500由63.8%降至50.6%、HumanEval由68.3%降至34.1%,反向迁移同样退化。根据同一来源,MEMCOLLAB通过对比一成一败的两条跨模型轨迹,仅提取在两者中均成立的抽象不变量(而非风格与捷径),使Llama 3 8B在MATH500从27.4%升至42.4%,四项基准平均从41.7%升至53.9%。据God of Prompt报道,Qwen 7B在MATH500由52.2%升至67.0%、HumanEval由42.7%升至74.4%;HumanEval与MBPP的平均推理轮次分别从3.3降至1.5、3.1降至1.4,显示精度与推理效率双提升、推理成本下降。该来源还称,跨架构记忆构建(Qwen 32B加Llama 8B)在GSM8K上以95.2%优于同家族方案的93.6%,为企业在代码助理、数学辅导与流程自动化等场景部署跨模型记忆标准化流水线、降低token开销并提升稳健性提供了可行路径。

2026-02-03
21:49
最新分析:FP8训练助力GPT-2模型在H100 GPU上加速4.3%,成本降至20美元

根据Andrej Karpathy在Twitter上的消息,采用FP8精度在H100 GPU上训练GPT-2模型,使训练时间提升了4.3%,仅需2.91小时。Karpathy指出,通过8块H100按需实例,复现GPT-2模型的总成本约为20美元,较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍,通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势,但实际应用中存在如比例换算开销和支持度不足等挑战,特别是在GPT-2规模下表现有限。然而,FP8的应用趋势为大型语言模型训练带来成本优势,torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为,持续优化FP8应用及训练策略,将进一步降低大模型开发的时间和资金门槛,为行业和科研带来更多机会。