闪存注意力 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 闪存注意力

时间 详情
2026-02-03
21:49
最新分析:FP8训练助力GPT-2模型在H100 GPU上加速4.3%,成本降至20美元

根据Andrej Karpathy在Twitter上的消息,采用FP8精度在H100 GPU上训练GPT-2模型,使训练时间提升了4.3%,仅需2.91小时。Karpathy指出,通过8块H100按需实例,复现GPT-2模型的总成本约为20美元,较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍,通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势,但实际应用中存在如比例换算开销和支持度不足等挑战,特别是在GPT-2规模下表现有限。然而,FP8的应用趋势为大型语言模型训练带来成本优势,torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为,持续优化FP8应用及训练策略,将进一步降低大模型开发的时间和资金门槛,为行业和科研带来更多机会。

2026-02-03
21:49
最新突破:FP8训练将GPT-2训练时间降至2.91小时,H100 GPU助力成本大幅降低

据Andrej Karpathy在推特上透露,通过启用FP8训练,GPT-2模型的训练时间提升了4.3%,在8块H100 GPU上已缩短至2.91小时,按现行云端价格,完整复现GPT-2训练仅需约20美元。相比2019年OpenAI首次发布时的高昂成本和敏感性,GPT-2现已成为低门槛实验平台。Karpathy指出,FP8训练虽在理论上具备2倍FLOPS优势,但实际应用中支持有限且效率提升未达预期,张量级别缩放实现约7.3%加速。此外,torchao曾报告Llama3-8B模型FP8训练加速达25%。Karpathy介绍,借助Flash Attention 3和Muon优化器等创新,GPT-2训练成本七年间降至原来的1/600,为AI创业团队和研究者带来低成本、快速原型验证的新机遇。据Karpathy介绍,nanochat等开源项目正持续通过优化推动大模型训练门槛的大幅降低,助推行业创新。

2026-01-31
20:55
最新突破:nanochat单节点3小时内低于$100训练GPT-2级别大模型深度解析

根据Andrej Karpathy在Twitter上的消息,nanochat现可在单台8XH100节点上,以不到100美元(约73美元,耗时3小时)训练出GPT-2级别的大型语言模型。相比OpenAI 2019年使用32块TPU v3芯片、7天耗资约4.3万美元完成GPT-2训练,如今成本降低了600倍。Karpathy指出,这一进步得益于Flash Attention 3、Muon优化器等多项技术优化,大幅提升了训练效率和可复制性。此举极大降低了企业和研究者开发高性能大模型的门槛,为AI行业带来了更多创新和商业化机会。