AdamW AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 AdamW

时间 详情
2026-03-09
22:28
Karpathy自主演化调参使Nanochat训练提速11%:从2.02小时到1.80小时的实证与商业分析

据Andrej Karpathy在Twitter表示,通过代理驱动的autoresearch对nanochat进行约两天的自动化调参,先在depth=12上发现约20项可叠加的改动并成功迁移到depth=24,使排行榜“Time to GPT-2”由2.02小时降至1.80小时,约提升11%(来源:Karpathy)。据Karpathy称,代理共进行了约700次代码与配置变更并以验证集损失为准绳筛选最佳方案,关键改动包括:为无参QKnorm增加缩放因子以收紧注意力、为Value Embeddings施加正则、放宽带状注意力窗口、修正AdamW动量参数、并优化权重衰减日程与初始化(来源:Karpathy)。据其GitHub提交记录(commit 6ed7d1d82cee16c2e26f45d559ad3338447a6c1b)显示,这些改动已公开落地,他将启动第二轮并探索多代理并行(来源:Karpathy)。对行业的启示在于:可将代理群用于小模型的代理指标优化,再将优胜策略上推到大模型,形成训练编排与成本效率优势,催生自动化超参优化、代理化MLOps与预训练及微调提效工具等商业机会(来源:Karpathy)。