NVIDIA GH200 超级芯片2倍提升Llama模型推理性能

NVIDIA GH200 超级芯片2倍提升Llama模型推理性能 - Blockchain.News

据[NVIDIA](https://developer.nvidia.com/blog/nvidia-gh200-superchip-accelerates-inference-by-2x-in-multiturn-interactions-with-llama-models/)报道，NVIDIA GH200 Grace Hopper超级芯片正在AI社区引起轰动，在与Llama模型的多轮互动中，将推理速度提高了两倍。这一进步解决了在部署大型语言模型(LLM)时，用户互动性与系统吞吐量之间长期存在的平衡难题。

通过KV缓存卸载提升性能

像Llama 3 70B模型这样的LLM部署通常需要大量计算资源，尤其是在输出序列的初始生成期间。NVIDIA GH200通过将键值(KV)缓存卸载到CPU内存中，大大减轻了这种计算负担。这一方法允许重用先前计算的数据，从而最大限度地减少重新计算的需要，并使首个标记生成时间(TTFT)相比传统的基于x86的NVIDIA H100服务器提高了多达14倍。

解决多轮互动挑战

在需要多轮互动的场景中，诸如内容摘要和代码生成，KV缓存卸载尤其有利。通过将KV缓存存储在CPU内存中，多个用户可以与相同内容进行交互而无需重新计算缓存，从而优化成本和用户体验。这种方法正在内容提供商中间获得认可，他们正在将生成式AI功能集成到他们的平台中。

解决PCIe瓶颈问题

NVIDIA GH200超级芯片通过使用NVLink-C2C技术解决了传统PCIe接口相关的性能问题，该技术在CPU和GPU之间提供了高达900 GB/s的惊人带宽。这是标准PCIe Gen5通道的七倍，允许更高效的KV缓存卸载并实现实时用户体验。

广泛采用与未来展望

目前，NVIDIA GH200为全球九台超级计算机提供动力，并通过各种系统制造商和云供应商提供。其在无需额外基础设施投资的情况下提高推理速度的能力，使其对于数据中心、云服务提供商和寻求优化LLM部署的AI应用开发人员来说是一个有吸引力的选择。

GH200的高级内存架构继续推动AI推理能力的边界，为大型语言模型的部署设定了新的标准。

Image source: Shutterstock

NVIDIA GH200 超级芯片2倍提升Llama模型推理性能

通过KV缓存卸载提升性能

解决多轮互动挑战

解决PCIe瓶颈问题

广泛采用与未来展望

Premium Sponsors

Flash News