闪存注意力 AI快讯列表

时间	详情
2026-02-03 21:49	最新分析：FP8训练助力GPT-2模型在H100 GPU上加速4.3%，成本降至20美元根据Andrej Karpathy在Twitter上的消息，采用FP8精度在H100 GPU上训练GPT-2模型，使训练时间提升了4.3%，仅需2.91小时。Karpathy指出，通过8块H100按需实例，复现GPT-2模型的总成本约为20美元，较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍，通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势，但实际应用中存在如比例换算开销和支持度不足等挑战，特别是在GPT-2规模下表现有限。然而，FP8的应用趋势为大型语言模型训练带来成本优势，torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为，持续优化FP8应用及训练策略，将进一步降低大模型开发的时间和资金门槛，为行业和科研带来更多机会。原文链接
2026-02-03 21:49	最新突破：FP8训练将GPT-2训练时间降至2.91小时，H100 GPU助力成本大幅降低据Andrej Karpathy在推特上透露，通过启用FP8训练，GPT-2模型的训练时间提升了4.3%，在8块H100 GPU上已缩短至2.91小时，按现行云端价格，完整复现GPT-2训练仅需约20美元。相比2019年OpenAI首次发布时的高昂成本和敏感性，GPT-2现已成为低门槛实验平台。Karpathy指出，FP8训练虽在理论上具备2倍FLOPS优势，但实际应用中支持有限且效率提升未达预期，张量级别缩放实现约7.3%加速。此外，torchao曾报告Llama3-8B模型FP8训练加速达25%。Karpathy介绍，借助Flash Attention 3和Muon优化器等创新，GPT-2训练成本七年间降至原来的1/600，为AI创业团队和研究者带来低成本、快速原型验证的新机遇。据Karpathy介绍，nanochat等开源项目正持续通过优化推动大模型训练门槛的大幅降低，助推行业创新。原文链接
2026-01-31 20:55	最新突破：nanochat单节点3小时内低于$100训练GPT-2级别大模型深度解析根据Andrej Karpathy在Twitter上的消息，nanochat现可在单台8XH100节点上，以不到100美元（约73美元，耗时3小时）训练出GPT-2级别的大型语言模型。相比OpenAI 2019年使用32块TPU v3芯片、7天耗资约4.3万美元完成GPT-2训练，如今成本降低了600倍。Karpathy指出，这一进步得益于Flash Attention 3、Muon优化器等多项技术优化，大幅提升了训练效率和可复制性。此举极大降低了企业和研究者开发高性能大模型的门槛，为AI行业带来了更多创新和商业化机会。原文链接

2026-02-03
21:49

最新分析：FP8训练助力GPT-2模型在H100 GPU上加速4.3%，成本降至20美元

根据Andrej Karpathy在Twitter上的消息，采用FP8精度在H100 GPU上训练GPT-2模型，使训练时间提升了4.3%，仅需2.91小时。Karpathy指出，通过8块H100按需实例，复现GPT-2模型的总成本约为20美元，较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍，通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势，但实际应用中存在如比例换算开销和支持度不足等挑战，特别是在GPT-2规模下表现有限。然而，FP8的应用趋势为大型语言模型训练带来成本优势，torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为，持续优化FP8应用及训练策略，将进一步降低大模型开发的时间和资金门槛，为行业和科研带来更多机会。

原文链接

2026-02-03
21:49

据Andrej Karpathy在推特上透露，通过启用FP8训练，GPT-2模型的训练时间提升了4.3%，在8块H100 GPU上已缩短至2.91小时，按现行云端价格，完整复现GPT-2训练仅需约20美元。相比2019年OpenAI首次发布时的高昂成本和敏感性，GPT-2现已成为低门槛实验平台。Karpathy指出，FP8训练虽在理论上具备2倍FLOPS优势，但实际应用中支持有限且效率提升未达预期，张量级别缩放实现约7.3%加速。此外，torchao曾报告Llama3-8B模型FP8训练加速达25%。Karpathy介绍，借助Flash Attention 3和Muon优化器等创新，GPT-2训练成本七年间降至原来的1/600，为AI创业团队和研究者带来低成本、快速原型验证的新机遇。据Karpathy介绍，nanochat等开源项目正持续通过优化推动大模型训练门槛的大幅降低，助推行业创新。

原文链接

2026-01-31
20:55

最新突破：nanochat单节点3小时内低于$100训练GPT-2级别大模型深度解析

根据Andrej Karpathy在Twitter上的消息，nanochat现可在单台8XH100节点上，以不到100美元（约73美元，耗时3小时）训练出GPT-2级别的大型语言模型。相比OpenAI 2019年使用32块TPU v3芯片、7天耗资约4.3万美元完成GPT-2训练，如今成本降低了600倍。Karpathy指出，这一进步得益于Flash Attention 3、Muon优化器等多项技术优化，大幅提升了训练效率和可复制性。此举极大降低了企业和研究者开发高性能大模型的门槛，为AI行业带来了更多创新和商业化机会。

原文链接

AI 快讯列表关于 闪存注意力

AI 快讯列表关于闪存注意力