NVIDIA GH200 NVL32：通过NVLink交换机革新首令牌生成时间性能

NVIDIA GH200 NVL32：通过NVLink交换机革新首令牌生成时间性能 - Blockchain.News

NVIDIA最新的GH200 NVL32系统在首令牌生成时间（TTFT）性能上展现了显著的飞跃，满足了如Llama 3.1和3.2等大语言模型（LLM）的不断增长需求。根据NVIDIA技术博客，该系统将显著影响实时应用，如互动语音机器人和编码助手。

首令牌生成时间（TTFT）的重要性

TTFT是LLM处理用户提示并开始生成响应所需的时间。随着LLM的复杂性不断增加，像Llama 3.1这样的模型现在具有数千亿个参数，TTFT速度的需求变得至关重要。这对需要即时响应的应用程序尤其重要，如AI驱动的客户支持和数字助手。

NVIDIA的GH200 NVL32系统由32个NVIDIA GH200 Grace Hopper超级芯片提供动力，并通过NVLink交换机连接，旨在满足这些需求。该系统利用TensorRT-LLM的改进，提供卓越的长上下文推理TTFT，使其非常适合最新的Llama 3.1模型。

实时用例和性能

像AI语音机器人和数字助手这样的应用程序需要几百毫秒范围内的TTFT以模拟自然的人类对话。例如，半秒的TTFT比五秒的TTFT显著更具用户友好性。快速的TTFT对于依赖最新信息的服务尤其重要，如使用检索增强生成（RAG）增强LLM提示的智能工作流。

NVIDIA GH200 NVL32系统即使在上下文长度很长的情况下，也能实现Llama 3.1模型的最快公开TTFT。这种性能对于需要快速和准确响应的实时应用程序至关重要。

技术规格和成就

GH200 NVL32系统连接了32个NVIDIA GH200 Grace Hopper超级芯片，每个芯片通过NVLink-C2C连接NVIDIA Grace CPU和NVIDIA Hopper GPU。这种设置允许进行高带宽、低延迟的通信，减少同步时间并最大化计算性能。该系统提供高达127 petaFLOPs的峰值FP8 AI计算性能，显著减少了长上下文需求模型的TTFT。

例如，该系统可以为具有32,768个令牌输入序列长度的Llama 3.1 70B实现仅472毫秒的TTFT。即使对于更复杂的模型，如Llama 3.1 405B，该系统在使用32,768令牌输入时也能提供约1.6秒的TTFT。

推理中的持续创新

推理仍然是创新的热点，服务技术、运行时优化等方面的进步层出不穷。像飞行批处理、预测解码和FlashAttention等技术正在使强大的AI模型的部署更加高效和具有成本效益。

NVIDIA的加速计算平台，由庞大的开发者生态系统和广泛的GPU安装基础支持，处于这些创新的最前沿。该平台与CUDA编程模型的兼容性以及与开发者社区的深入合作确保了AI能力的快速进步。

未来前景

展望未来，NVIDIA Blackwell GB200 NVL72平台承诺带来更大的进步。通过第二代Transformer引擎和第五代Tensor Cores，Blackwell提供高达20 petaFLOPs的FP4 AI计算性能，显著提升性能。该平台的第五代NVLink提供1,800 GB/s的GPU到GPU带宽，将NVLink域扩展到72个GPU。

随着AI模型的不断增长和智能工作流的普及，对GH200 NVL32和Blackwell GB200 NVL72等高性能、低延迟计算解决方案的需求将只增不减。NVIDIA的持续创新确保公司始终处于AI和加速计算的前沿。

Image source: Shutterstock