🔔
🎄
🎁
🦌
🛷
NEW
NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理 - Blockchain.News

NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理

realtime news Dec 18, 2024 17:39

NVIDIA的TensorRT-LLM现在支持Apple的ReDrafter,通过投机解码优化大语言模型推理,在NVIDIA GPU上提供显著的性能提升。

NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理

NVIDIA已将Apple的ReDrafter,一种创新的投机解码技术,集成到其TensorRT-LLM库中以增强大语言模型(LLM)推理。据NVIDIA的官方博客,此次合作旨在优化NVIDIA GPU上的LLM工作负载性能。

了解ReDrafter

ReDrafter由Apple开发并开源,采用基于递归神经网络(RNN)的采样或“起草”,结合树状注意力。这种投机解码技术通过并行生成多个token,加速了LLM推理,同时保持输出质量并减少响应时间。该方法在低流量期间特别有效,利用资源实现低延迟推理。

技术集成

ReDrafter集成到TensorRT-LLM中,可在单引擎中实现起草和验证,最大限度地减少运行时开销。此更新使TensorRT-LLM在内核选择和调度上更具灵活性,优化了网络性能。TensorRT-LLM中的ReDrafter实现简化了运行时变化,并提升了与之前方法如Medusa相比的投机解码效率。

航班批处理和引擎内验证

TensorRT-LLM支持航班批处理,通过批处理上下文阶段和生成阶段请求提高吞吐量。ReDrafter的验证逻辑被合并到模型定义中,验证时需要相似的逻辑。这种方法增强了TensorRT-LLM的灵活性,使未来能够定义更复杂的模型。

性能和潜力

根据Apple的基准测试,TensorRT-LLM中的ReDrafter在NVIDIA H100 GPU上可实现高达2.7倍的吞吐量提升。影响性能的因素包括GPU利用率、平均接受率和任务特异性。投机解码特别有利于低流量场景和任务,如代码完成,这更准确地预测未来token。

未来影响

此次集成标志着LLM推理优化的重要进展。通过增强TensorRT-LLM的能力,NVIDIA和Apple的合作为开发复杂模型开辟了新的可能性。LLM社区现在可以利用这些进步,在NVIDIA GPU上部署性能无与伦比的模型。

Image source: Shutterstock