根据 NVIDIA 博客,全栈 NVIDIA 加速计算平台在最新的 MLPerf Training v4.0 基准测试中再次展示了卓越的性能。
大型语言模型的前所未有的性能
在基于 GPT-3 175B 的大型语言模型(LLM)基准测试中,NVIDIA 的性能比之前创纪录的提交提高了三倍多。这一成就使用了一台 AI 超级计算机,该计算机配备了 11,616 个 NVIDIA H100 Tensor Core GPU,并通过 NVIDIA Quantum-2 InfiniBand 网络连接,这比去年使用的 3,584 个 H100 GPU 有了显著增加。这种可扩展性展示了 NVIDIA 广泛的全栈工程努力。
NVIDIA AI 平台的可扩展性使得像 GPT-3 175B 这样的庞大 AI 模型能够更快地训练,从而转化为重要的商业机会。例如,NVIDIA 最近的财报电话会议指出,LLM 服务提供商通过在 NVIDIA HGX H200 服务器上运行 Llama 3 70B 模型,可能会在四年内将投资的一美元转换为七美元。
NVIDIA H200 GPU:突破边界
基于 Hopper 架构的 NVIDIA H200 Tensor GPU 提供了 141GB 的 HBM3 内存和比 H100 GPU 高出 40% 以上的内存带宽。在其 MLPerf Training 首秀中,H200 在性能上比 H100 提高了 47%,突破了 AI 训练能力的边界。
软件优化驱动性能提升
NVIDIA 还报告称,其 512 个 H100 GPU 配置相比去年提高了 27% 的性能,这要归功于许多软件堆栈的优化。即使使用现有硬件,这种改进也凸显了持续的软件增强对性能的影响。
提交显示了近乎完美的扩展性,随着 GPU 数量从 3,584 增加到 11,616,性能按比例增加。
在 LLM 微调方面的卓越表现
LLM 微调是企业定制预训练大型语言模型的关键工作负载,这也是一个亮点。NVIDIA 在这一领域表现出色,从 8 个 GPU 扩展到 1,024 个 GPU,并在创纪录的 1.5 分钟内完成基准测试。
加速稳定扩散和图神经网络训练
在相同系统规模下,NVIDIA 在 Stable Diffusion v2 训练性能上提高了多达 80%。此外,H200 GPU 在单节点图神经网络(GNN)训练方面比 H100 提高了 47%,展示了 NVIDIA GPU 在各种 AI 应用中的强大性能和效率。
广泛的生态系统支持
凭借 ASUS、戴尔科技和联想等 10 个合作伙伴提交了他们自己的令人印象深刻的基准测试结果,NVIDIA AI 生态系统的广度显而易见。广泛的参与突显了行业对 NVIDIA AI 平台的信任。
MLCommons 继续在 AI 计算中发挥重要作用,通过提供 AI 和 HPC 平台的同行评审比较。这对于在快速发展的领域中指导重要的购买决策至关重要。
展望未来,NVIDIA Blackwell 平台有望为万亿参数生成 AI 模型的训练和推理带来下一个级别的 AI 性能。
Image source: Shutterstock