NVIDIA在MLPerf Training v4.0中打破生成式AI记录

NVIDIA在MLPerf Training v4.0中打破生成式AI记录 - Blockchain.News

根据最近提交给MLPerf Training v4.0的结果，NVIDIA在生成式AI领域设定了新的性能和规模记录。这一成就突显了公司在AI训练基准测试，特别是在大型语言模型（LLMs）和生成式AI领域的持续统治地位。

MLPerf Training v4.0更新

由MLCommons联盟开发的MLPerf Training是评估端到端AI训练性能的行业标准基准测试。最新版本v4.0引入了两个新测试，反映了流行的行业工作负载。第一个测试测量使用低秩适应（LoRA）技术的Llama 2 70B的微调速度。第二个测试侧重于基于关系图注意网络（RGAT）实现的图神经网络（GNN）训练。

更新的测试套件包括各种工作负载，例如LLM预训练（GPT-3 175B）、LLM微调（Llama 2 70B使用LoRA）、文本到图像（Stable Diffusion v2）以及其他覆盖广泛AI应用的测试。

NVIDIA的破纪录表现

在最新的MLPerf Training回合中，NVIDIA使用其硬件和软件解决方案的全套产品实现了卓越的性能：

NVIDIA Hopper GPU
第四代NVLink互连和第三代NVSwitch芯片
NVIDIA Quantum-2 InfiniBand网络
优化的NVIDIA软件套件

自上轮以来，这些组件已进一步优化，使NVIDIA打破了以前的记录。例如，NVIDIA将其GPT-3 175B的训练时间从使用3,584个H100 GPU的10.9分钟缩短至使用11,616个H100 GPU的仅3.4分钟，展示了接近线性的性能扩展。

生成式AI和LLM微调

NVIDIA还在LLM微调方面设定了新记录，特别是使用Meta开发的Llama 2 70B模型。利用LoRA技术，单个配备八个H100 GPU的DGX H100在28分钟内完成了微调。使用NVIDIA H200 Tensor Core GPU将这一时间进一步缩短至24.7分钟。NVIDIA的提交还展示了可扩展性，使用1,024个H100 GPU的微调时间仅为1.5分钟。

为了取得这些成果，该公司利用了NVIDIA NeMo框架中的上下文并行能力。此外，在cuDNN中使用的FP8自注意力实现提高了八GPU规模下的性能15%。

视觉生成式AI的进展

MLPerf Training v4.0还包括基于Stable Diffusion v2的文本到图像生成式AI的基准测试。NVIDIA的提交通过广泛的软件增强（如全迭代CUDA图和为Stable Diffusion优化的分布式优化器）在相同规模下提供了高达80%的性能提升。

图神经网络训练

NVIDIA在GNN训练方面也创下了新纪录。使用8、64和512个H100 GPU，该公司在最大规模配置中实现了仅1.1分钟的记录时间。使用八个H200 Tensor Core GPU与相同规模的H100提交相比提供了47%的提升。

关键要点

NVIDIA继续在AI训练性能方面领先，展示了在各种AI工作负载中的最高多功能性和效率。公司持续优化其软件套件，确保每个GPU都有更多性能，降低训练成本并使更多要求苛刻的模型训练成为可能。

展望未来，在GTC 2024上宣布的NVIDIA Blackwell平台承诺将民主化万亿参数AI，提供高达30倍的实时万亿参数推断速度和高达4倍的万亿参数训练速度，相比NVIDIA Hopper GPU。

欲了解更多详细信息，请访问NVIDIA技术博客。

Image source: Shutterstock