AI 快讯列表关于 Muon优化器
| 时间 | 详情 |
|---|---|
|
2026-01-31 20:55 |
最新突破:nanochat单节点3小时内低于$100训练GPT-2级别大模型深度解析
根据Andrej Karpathy在Twitter上的消息,nanochat现可在单台8XH100节点上,以不到100美元(约73美元,耗时3小时)训练出GPT-2级别的大型语言模型。相比OpenAI 2019年使用32块TPU v3芯片、7天耗资约4.3万美元完成GPT-2训练,如今成本降低了600倍。Karpathy指出,这一进步得益于Flash Attention 3、Muon优化器等多项技术优化,大幅提升了训练效率和可复制性。此举极大降低了企业和研究者开发高性能大模型的门槛,为AI行业带来了更多创新和商业化机会。 |