AI 快讯列表关于 Llama3
| 时间 | 详情 |
|---|---|
|
2026-02-03 21:49 |
最新分析:FP8训练助力GPT-2模型在H100 GPU上加速4.3%,成本降至20美元
根据Andrej Karpathy在Twitter上的消息,采用FP8精度在H100 GPU上训练GPT-2模型,使训练时间提升了4.3%,仅需2.91小时。Karpathy指出,通过8块H100按需实例,复现GPT-2模型的总成本约为20美元,较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍,通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势,但实际应用中存在如比例换算开销和支持度不足等挑战,特别是在GPT-2规模下表现有限。然而,FP8的应用趋势为大型语言模型训练带来成本优势,torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为,持续优化FP8应用及训练策略,将进一步降低大模型开发的时间和资金门槛,为行业和科研带来更多机会。 |