快讯列表

关于 训练 的快讯列表

时间 详情
2026-02-03
21:49
据@karpathy称:在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时 成本接近20美元

据@karpathy称,在其 nanochat 的GPT-2复现中启用FP8训练,使“time to GPT-2”再降4.3%,单台8卡H100节点用时2.91小时。 据@karpathy称,按8卡H100的临时价位一次运行约20美元,而此前3.04小时的运行约73美元,较OpenAI最初的GPT-2训练已实现约600倍成本下降。 据@karpathy称,H100上的FP8理论FLOPs为两倍,但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制,单步加速约7.3%,综合调整训练步数后净收益约5%。 据@karpathy称,torchao报告在Llama3 8B上FP8可达25%加速,提示更大模型或受益更多,他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。 据@karpathy称,额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings,并已在GitHub提供可复现实验与“time to GPT-2”榜单。

来源
2026-01-31
20:55
Karpathy称nanochat在8卡H100上3小时训练GPT2级LLM仅需73美元

据@karpathy称,nanochat现可在单台配备8张H100的节点上约3小时完成GPT2级大语言模型训练,成本约73美元,为紧凑型LLM训练提供了明确的成本与时间基准(来源:@karpathy)。据@karpathy表示,GPT2被其视为现代LLM技术栈首次成型的里程碑,此次更新强调在现代表卡上可复现的低成本GPT2级训练(来源:@karpathy)。

来源
2025-04-03
16:31
分析交易策略中CoT监控的有效性

根据Anthropic的说法,在交易策略中监控思维链(CoT)可能无法有效识别罕见的灾难性行为,特别是在CoT推理不关键的情况下。然而,CoT监控在交易系统的训练和评估阶段仍可能有助于发现不良行为(来源:AnthropicAI)。

来源