Meta公司最新的Llama系列添加——Llama 3.3 70B模型,由于NVIDIA的TensorRT-LLM而获得了显著的性能提升。根据NVIDIA介绍,这次合作旨在优化大型语言模型(LLM)的推理吞吐量,使其提高至三倍。
使用TensorRT-LLM的高级优化
NVIDIA的TensorRT-LLM采用了多种创新技术来最大限度地提升Llama 3.3 70B的性能。主要优化包括飞行批处理、KV缓存和自定义FP8量化。这些技术旨在提升LLM服务的效率,减少延迟并提高GPU利用率。
飞行批处理允许多个请求同时处理,优化了服务吞吐量。通过在上下文和生成阶段交错请求,它减少延迟并提升GPU利用率。此外,KV缓存机制通过存储以前标记的键值元素节省计算资源,尽管需要仔细管理内存资源。
推测解码技术
推测解码是一种加速LLM推理的强大方法。它允许生成多个未来标记序列,比单一自动回归解码中的标记更有效地处理。TensorRT-LLM支持各种推测解码技术,包括草稿目标、Medusa、Eagle和预见解码。
这些技术显著提高了吞吐量,如使用NVIDIA的H200 Tensor Core GPU的内部测量所示。例如,使用草稿模型将吞吐量从每秒51.14个标记提高到每秒181.74个标记,实现了3.55倍的加速。
实施和部署
为了实现这些性能提升,NVIDIA提供了一个全面的设置,以将草稿目标推测解码与Llama 3.3 70B模型集成。这包括下载模型检查点、安装TensorRT-LLM以及将模型检查点编译为优化的TensorRT引擎。
NVIDIA致力于推进AI技术的发展,与Meta和其他合作伙伴协作,旨在增强开放社区AI模型。TensorRT-LLM优化不仅提高了吞吐量,还降低了能耗和总拥有成本,使AI部署在各种基础设施中更为高效。
有关设置过程和其他优化的更多信息,请访问NVIDIA官方博客。
Image source: Shutterstock