NVIDIA 最新的创新产品,Blackwell 平台,在 MLPerf Training v4.1 中通过将大型语言模型(LLM)训练基准的性能翻倍,标志着人工智能(AI)训练的一个重要里程碑。根据NVIDIA的说法,这一成就突显了 NVIDIA 在数据中心规模上不断推进 AI 能力的承诺。
Blackwell 平台揭幕
在 GTC 2024 大会上推出并现已全面投产的 Blackwell 平台集成了包括 GPU、CPU 和 DPU 在内的七种芯片,显著提升了每个 GPU 的性能。该平台旨在通过支持创建更大的 AI 集群来推动下一代 LLM 的开发。
MLPerf Training 中的性能提升
在最新的 MLPerf Training 基准测试中,NVIDIA 的 Blackwell 平台在所有测试中都优于其前身 Hopper。显著的改进包括 GPT-3 预训练性能增加 2 倍,以及 Llama 2 70B 低秩适配(LoRA)微调性能提升 2.2 倍。提交测试的系统配备了八个 Blackwell GPU,每个的热设计功耗(TDP)为 1,000W。
技术增强
Blackwell 架构在硬件和软件方面受益于增强。这包括优化的一般矩阵乘法(GEMMs)、更好的计算与通信重叠,以及改进的内存带宽利用。这些进步使 AI 工作负载的执行更加高效,并展示了 NVIDIA 在硬件和软件联合设计以实现最佳性能的专注。
对 LLM 训练的影响
MLPerf Training 套件的 LLM 预训练基准基于 GPT-3 模型,突显了 Blackwell 的能力,每个 GPU 提供的性能是 Hopper 的两倍。此外,Blackwell 增强的高带宽内存允许更少 GPU 的高效训练,进一步展示了其效率。
未来展望
展望未来,NVIDIA 计划利用 GB200 NVL72 系统实现更大的性能提升。预计该系统将具备更多的计算能力、扩展的 NVLink 领域和更高的内存带宽,进一步挑战 AI 训练能力的极限。
总之,NVIDIA Blackwell 平台代表了 AI 训练技术的重大进步,提供了相比之前架构显著的性能提升。随着 NVIDIA 的持续创新,AI 模型的能力预计将会不断增长,使得系统更加复杂和强大。
Image source: Shutterstock