AI 快讯列表关于 FP8
| 时间 | 详情 |
|---|---|
|
2026-03-05 23:30 |
Karpathy 推出 NanoChat:8卡 H100 两小时训练 GPT‑2 水平模型,FP8 与 NVIDIA ClimbMix 带来加速(2026 深度分析)
据 Andrej Karpathy 在 X 表示,NanoChat 现已在单台 8×H100 节点上将 GPT‑2 能力模型训练时间缩短至约 2 小时,较一月前的约 3 小时进一步降低,主要得益于将数据集从 FineWeb‑edu 切换为 NVIDIA ClimbMix,并启用 FP8 优化(来源:Karpathy)。据其称,Olmo、FineWeb、DCLM 等数据集带来回归,而 ClimbMix 开箱即用效果更好,显示更高的数据效率与更少的调参成本。另据 Karpathy 报道,其已用 AI 代理自动迭代 NanoChat,在约 12 小时内进行了 110 次变更,将 d12 模型验证损失从 0.862415 降至 0.858039,且不增加壁钟时间,体现出可持续的训练运维自动化范式。对企业而言,这意味着通过 FP8 降本增效、采用高质量语料如 ClimbMix 加速收敛、以及以代理驱动的 MLOps 实现持续集成与性能回归防护的市场机会。 |
|
2026-03-05 23:30 |
Karpathy:Nanochat在单台8卡H100上2小时完成GPT‑2训练,FP8与NVIDIA ClimbMix成关键突破
据Andrej Karpathy在X平台披露,nanochat现可在单台8卡H100节点上约2小时完成GPT‑2能力模型训练,较一月前的约3小时显著缩短,主要得益于将训练数据集从FineWeb‑edu切换为NVIDIA ClimbMix,并结合FP8及多项调优(来源:Andrej Karpathy on X,2026年3月5日)。据Karpathy称,Olmo、FineWeb与DCLM等数据集导致性能回退,而ClimbMix即插即用效果显著,凸显数据配方对小型模型效率与收敛的直接影响(来源:Andrej Karpathy on X)。另据其介绍,AI代理已自动迭代nanochat,在约12小时内完成110次变更,将d12模型验证损失从0.862415降至0.858039,且不增加壁钟时间,方法为在特性分支上试验并合入有效改动(来源:Andrej Karpathy on X)。对业界而言,这表明可在常见8卡H100集群上实现更快的LLM训练迭代,通过ClimbMix优化数据质量,并以代理式MLOps实现持续训练与部署的效率提升(来源:Andrej Karpathy on X)。 |
|
2026-02-03 21:49 |
最新分析:FP8训练助力GPT-2模型在H100 GPU上加速4.3%,成本降至20美元
根据Andrej Karpathy在Twitter上的消息,采用FP8精度在H100 GPU上训练GPT-2模型,使训练时间提升了4.3%,仅需2.91小时。Karpathy指出,通过8块H100按需实例,复现GPT-2模型的总成本约为20美元,较七年前OpenAI最初训练GPT-2时的4.3万美元有极大下降。Karpathy还介绍,通过Flash Attention 3内核、Muon优化器和交替注意力模式等优化进一步提升了效率。尽管FP8在理论上有FLOPS优势,但实际应用中存在如比例换算开销和支持度不足等挑战,特别是在GPT-2规模下表现有限。然而,FP8的应用趋势为大型语言模型训练带来成本优势,torchao团队在更大规模的Llama3-8B模型上实现了25%的训练加速。Karpathy认为,持续优化FP8应用及训练策略,将进一步降低大模型开发的时间和资金门槛,为行业和科研带来更多机会。 |
|
2026-02-03 21:49 |
最新突破:FP8训练将GPT-2训练时间降至2.91小时,H100 GPU助力成本大幅降低
据Andrej Karpathy在推特上透露,通过启用FP8训练,GPT-2模型的训练时间提升了4.3%,在8块H100 GPU上已缩短至2.91小时,按现行云端价格,完整复现GPT-2训练仅需约20美元。相比2019年OpenAI首次发布时的高昂成本和敏感性,GPT-2现已成为低门槛实验平台。Karpathy指出,FP8训练虽在理论上具备2倍FLOPS优势,但实际应用中支持有限且效率提升未达预期,张量级别缩放实现约7.3%加速。此外,torchao曾报告Llama3-8B模型FP8训练加速达25%。Karpathy介绍,借助Flash Attention 3和Muon优化器等创新,GPT-2训练成本七年间降至原来的1/600,为AI创业团队和研究者带来低成本、快速原型验证的新机遇。据Karpathy介绍,nanochat等开源项目正持续通过优化推动大模型训练门槛的大幅降低,助推行业创新。 |