NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理 - Blockchain.News

🔔

🎄

🎁

⭐

NEW

NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理 - Blockchain.News

NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理

NVIDIA已将Apple的ReDrafter，一种创新的投机解码技术，集成到其TensorRT-LLM库中以增强大语言模型（LLM）推理。据NVIDIA的官方博客，此次合作旨在优化NVIDIA GPU上的LLM工作负载性能。

了解ReDrafter

ReDrafter由Apple开发并开源，采用基于递归神经网络（RNN）的采样或“起草”，结合树状注意力。这种投机解码技术通过并行生成多个token，加速了LLM推理，同时保持输出质量并减少响应时间。该方法在低流量期间特别有效，利用资源实现低延迟推理。

技术集成

ReDrafter集成到TensorRT-LLM中，可在单引擎中实现起草和验证，最大限度地减少运行时开销。此更新使TensorRT-LLM在内核选择和调度上更具灵活性，优化了网络性能。TensorRT-LLM中的ReDrafter实现简化了运行时变化，并提升了与之前方法如Medusa相比的投机解码效率。

航班批处理和引擎内验证

TensorRT-LLM支持航班批处理，通过批处理上下文阶段和生成阶段请求提高吞吐量。ReDrafter的验证逻辑被合并到模型定义中，验证时需要相似的逻辑。这种方法增强了TensorRT-LLM的灵活性，使未来能够定义更复杂的模型。

性能和潜力

根据Apple的基准测试，TensorRT-LLM中的ReDrafter在NVIDIA H100 GPU上可实现高达2.7倍的吞吐量提升。影响性能的因素包括GPU利用率、平均接受率和任务特异性。投机解码特别有利于低流量场景和任务，如代码完成，这更准确地预测未来token。

未来影响

此次集成标志着LLM推理优化的重要进展。通过增强TensorRT-LLM的能力，NVIDIA和Apple的合作为开发复杂模型开辟了新的可能性。LLM社区现在可以利用这些进步，在NVIDIA GPU上部署性能无与伦比的模型。

Image source: Shutterstock

Flash News

Bitcoin Reaches $106k, Solv Protocol Gains Trust with $2.65B in BTC Reserves

12/17/2024 12:49:03 PM

Upcoming Interest Rate Announcements by Major Central Banks

12/17/2024 12:41:38 PM

Pendle Ecosystem Fund Transfers $3.49 Million in PENDLE to Binance

12/17/2024 12:04:17 PM

CryptoMichNL Highlights $LVVA Token Sale and Upcoming TGE

12/17/2024 11:25:30 AM

BitMEX Research Highlights Conflict of Interest at Lego

12/17/2024 11:16:49 AM

Email us at info@blockchain.news