NVIDIA TensorRT-LLM 在飞行批处理中增强编码器-解码器模型

NEW

NVIDIA TensorRT-LLM 在飞行批处理中增强编码器-解码器模型 - Blockchain.News

NVIDIA 宣布对其开源库 TensorRT-LLM 进行重大更新，现在包括对具有飞行批处理功能的编码器-解码器模型架构的支持。根据 NVIDIA 的说法，这一发展进一步扩大了该库优化各种模型架构推理的能力，增强了 NVIDIA GPU 上的生成式 AI 应用。

扩展的模型支持

TensorRT-LLM 长期以来一直是优化推理的关键工具，用于诸如 Llama 3.1 等仅解码器架构、Mixtral 等专家混合模型以及 Mamba 等选择性状态空间模型。这次更新增加了对包括 T5、mT5 和 BART 在内的编码器-解码器模型的支持，标志着其功能的重要扩展。这次更新为这些模型实现了全张量并行、流水线并行和混合并行，确保了在各种 AI 任务中的稳健表现。

飞行批处理和增强效率

飞行批处理（也称为连续批处理）的集成是管理编码器-解码器模型运行时差异的关键。这些模型通常需要复杂的密钥值缓存管理和批处理管理，特别是在请求通过自回归方式处理的场景中。TensorRT-LLM 的最新增强优化了这些流程，提供了高吞吐量和低延迟，这对于实时 AI 应用至关重要。

生产就绪的部署

对于希望在生产环境中部署这些模型的企业，TensorRT-LLM 编码器-解码器模型由 NVIDIA Triton 推理服务器支持。这款开源推理软件简化了 AI 推理，允许高效部署优化的模型。Triton TensorRT-LLM 后端进一步增强了性能，使其成为适用于生产就绪应用的选择。

低秩自适应支持

此外，更新还引入了对低秩适应（LoRA）的支持，这是一种减少内存和计算要求的微调技术，同时保持模型性能。此功能特别有助于模型的特定任务定制，提供高效的多 LoRA 适配器服务，并通过动态加载减少内存占用。

未来的增强

展望未来，NVIDIA 计划引入 FP8 量化，以进一步提高编码器-解码器模型的延迟和吞吐量。此增强承诺提供更快更高效的 AI 解决方案，强化了 NVIDIA 致力于推进 AI 技术的承诺。

Image source: Shutterstock

Flash News

Crypto Market Experiences Worst Quarter in History

3/30/2025 10:03:59 AM

Crypto Rover Highlights Persistent Bitcoin Buy Signal

3/30/2025 9:06:00 AM

Crypto Rover Predicts Imminent Altcoin Season Resurgence

3/30/2025 8:41:00 AM

Gordon's Risk-Taking Strategy in Cryptocurrency Trading

3/30/2025 8:31:58 AM

CZ Identifies Key Issue in Cryptocurrency Market Beyond Technology

3/30/2025 8:20:45 AM

Email us at info@blockchain.news