训练 快讯列表

时间	详情
2026-02-03 21:49	据@karpathy称：在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时成本接近20美元据@karpathy称，在其 nanochat 的GPT-2复现中启用FP8训练，使“time to GPT-2”再降4.3%，单台8卡H100节点用时2.91小时。据@karpathy称，按8卡H100的临时价位一次运行约20美元，而此前3.04小时的运行约73美元，较OpenAI最初的GPT-2训练已实现约600倍成本下降。据@karpathy称，H100上的FP8理论FLOPs为两倍，但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制，单步加速约7.3%，综合调整训练步数后净收益约5%。据@karpathy称，torchao报告在Llama3 8B上FP8可达25%加速，提示更大模型或受益更多，他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。据@karpathy称，额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings，并已在GitHub提供可复现实验与“time to GPT-2”榜单。来源
2026-01-31 20:55	Karpathy称nanochat在8卡H100上3小时训练GPT2级LLM仅需73美元据@karpathy称，nanochat现可在单台配备8张H100的节点上约3小时完成GPT2级大语言模型训练，成本约73美元，为紧凑型LLM训练提供了明确的成本与时间基准（来源：@karpathy）。据@karpathy表示，GPT2被其视为现代LLM技术栈首次成型的里程碑，此次更新强调在现代表卡上可复现的低成本GPT2级训练（来源：@karpathy）。来源
2025-04-03 16:31	分析交易策略中CoT监控的有效性根据Anthropic的说法，在交易策略中监控思维链（CoT）可能无法有效识别罕见的灾难性行为，特别是在CoT推理不关键的情况下。然而，CoT监控在交易系统的训练和评估阶段仍可能有助于发现不良行为（来源：AnthropicAI）。来源

2026-02-03
21:49

据@karpathy称：在NVIDIA H100上采用FP8将GPT-2训练时间降至2.91小时成本接近20美元

据@karpathy称，在其 nanochat 的GPT-2复现中启用FP8训练，使“time to GPT-2”再降4.3%，单台8卡H100节点用时2.91小时。据@karpathy称，按8卡H100的临时价位一次运行约20美元，而此前3.04小时的运行约73美元，较OpenAI最初的GPT-2训练已实现约600倍成本下降。据@karpathy称，H100上的FP8理论FLOPs为两倍，但实际收益受缩放转换开销、训练并非完全受算力瓶颈以及GPT-2规模下GEMM较小等限制，单步加速约7.3%，综合调整训练步数后净收益约5%。据@karpathy称，torchao报告在Llama3 8B上FP8可达25%加速，提示更大模型或受益更多，他并表示可通过对特定层选择性使用FP8与改进数值稳定性继续提升。据@karpathy称，额外性能提升来自FlashAttention 3、Muon优化器、带可学习门控的残差与跳连以及value embeddings，并已在GitHub提供可复现实验与“time to GPT-2”榜单。

来源

2026-01-31
20:55

Karpathy称nanochat在8卡H100上3小时训练GPT2级LLM仅需73美元

据@karpathy称，nanochat现可在单台配备8张H100的节点上约3小时完成GPT2级大语言模型训练，成本约73美元，为紧凑型LLM训练提供了明确的成本与时间基准（来源：@karpathy）。据@karpathy表示，GPT2被其视为现代LLM技术栈首次成型的里程碑，此次更新强调在现代表卡上可复现的低成本GPT2级训练（来源：@karpathy）。

来源

2025-04-03
16:31

分析交易策略中CoT监控的有效性

根据Anthropic的说法，在交易策略中监控思维链（CoT）可能无法有效识别罕见的灾难性行为，特别是在CoT推理不关键的情况下。然而，CoT监控在交易系统的训练和评估阶段仍可能有助于发现不良行为（来源：AnthropicAI）。

来源

关于 训练 的快讯列表

关于训练的快讯列表