Llama 3.1 405B 利用 NVIDIA H200 GPU 和 NVLink 实现 1.5 倍吞吐量提升

realtime news Oct 11, 2024 10:21 UTC 02:21

1 Min Read

大语言模型（LLMs）的快速发展继续推动人工智能创新，NVIDIA 处于这一创新的前沿。根据NVIDIA 技术博客，最近的开发通过 NVIDIA 的 H200 Tensor Core GPU 和 NVLink Switch，使 Llama 3.1 405B 模型的吞吐量显著提升了 1.5 倍。

并行技术的进步

这些增强主要归功于优化的并行技术，包括张量并行和流水线并行。这些方法使多个 GPU 能够协作，高效地共享计算任务。张量并行通过在 GPU 之间分布模型层来减少延迟，而流水线并行通过最小化开销并利用 NVLink Switch 的高带宽来增强吞吐量。

实际上，这些升级在 NVIDIA HGX H200 系统的吞吐量敏感场景中实现了 1.5 倍的吞吐量提升。该系统利用 NVLink 和 NVSwitch 实现强大的 GPU 间互联，确保在推理任务期间的最大性能。

性能比较显示，虽然张量并行在降低延迟方面表现出色，但流水线并行显著提高了吞吐量。例如，在最低延迟场景中，张量并行比流水线并行性能高出 5.6 倍。相反，在最大吞吐量场景中，流水线并行实现了 1.5 倍的效率提升，突显了其有效处理高带宽通信的能力。

最近的基准测试进一步支持这些发现，包括通过 TensorRT-LLM 和 NVSwitch 的软件改进在 MLPerf Inference v4.1 Llama 2 70B 基准中实现了 1.2 倍加速。这些进步凸显了结合并行技术优化 AI 推理性能的潜力。

NVLink Switch 在这些性能提升中发挥了关键作用。每个 NVIDIA Hopper 架构 GPU 都配备了提供可观带宽的 NVLink，支持在流水线并行执行期间的高速数据传输能力。这确保了通信开销最小化，使吞吐量能够随着额外 GPU 的加入有效扩展。

NVLink 和 NVSwitch 的战略使用使开发人员能够根据特定部署需求调整并行配置，平衡计算和容量以实现所需的性能结果。这种灵活性对于希望在固定延迟约束下最大化吞吐量的大语言模型服务运营商至关重要。

展望未来，NVIDIA 的平台继续以全面的技术栈推进，旨在优化 AI 推理。NVIDIA Hopper 架构 GPU、NVLink 和 TensorRT-LLM 软件的结合为开发人员提供了无与伦比的工具，以提升大语言模型的性能并降低总体拥有成本。

随着 NVIDIA 持续改进这些技术，AI 创新的潜力正在扩大，承诺在生成式 AI 能力方面取得进一步突破。未来的更新将深入探讨优化延迟阈值和 GPU 配置，利用 NVSwitch 以提高在线场景的性能。