Muon优化器 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 Muon优化器

时间 详情
2026-01-31
20:55
最新突破:nanochat单节点3小时内低于$100训练GPT-2级别大模型深度解析

根据Andrej Karpathy在Twitter上的消息,nanochat现可在单台8XH100节点上,以不到100美元(约73美元,耗时3小时)训练出GPT-2级别的大型语言模型。相比OpenAI 2019年使用32块TPU v3芯片、7天耗资约4.3万美元完成GPT-2训练,如今成本降低了600倍。Karpathy指出,这一进步得益于Flash Attention 3、Muon优化器等多项技术优化,大幅提升了训练效率和可复制性。此举极大降低了企业和研究者开发高性能大模型的门槛,为AI行业带来了更多创新和商业化机会。