NVIDIA 宣布对其开源库 TensorRT-LLM 进行重大更新,现在包括对具有飞行批处理功能的编码器-解码器模型架构的支持。根据 NVIDIA 的说法,这一发展进一步扩大了该库优化各种模型架构推理的能力,增强了 NVIDIA GPU 上的生成式 AI 应用。
扩展的模型支持
TensorRT-LLM 长期以来一直是优化推理的关键工具,用于诸如 Llama 3.1 等仅解码器架构、Mixtral 等专家混合模型以及 Mamba 等选择性状态空间模型。这次更新增加了对包括 T5、mT5 和 BART 在内的编码器-解码器模型的支持,标志着其功能的重要扩展。这次更新为这些模型实现了全张量并行、流水线并行和混合并行,确保了在各种 AI 任务中的稳健表现。
飞行批处理和增强效率
飞行批处理(也称为连续批处理)的集成是管理编码器-解码器模型运行时差异的关键。这些模型通常需要复杂的密钥值缓存管理和批处理管理,特别是在请求通过自回归方式处理的场景中。TensorRT-LLM 的最新增强优化了这些流程,提供了高吞吐量和低延迟,这对于实时 AI 应用至关重要。
生产就绪的部署
对于希望在生产环境中部署这些模型的企业,TensorRT-LLM 编码器-解码器模型由 NVIDIA Triton 推理服务器支持。这款开源推理软件简化了 AI 推理,允许高效部署优化的模型。Triton TensorRT-LLM 后端进一步增强了性能,使其成为适用于生产就绪应用的选择。
低秩自适应支持
此外,更新还引入了对低秩适应(LoRA)的支持,这是一种减少内存和计算要求的微调技术,同时保持模型性能。此功能特别有助于模型的特定任务定制,提供高效的多 LoRA 适配器服务,并通过动态加载减少内存占用。
未来的增强
展望未来,NVIDIA 计划引入 FP8 量化,以进一步提高编码器-解码器模型的延迟和吞吐量。此增强承诺提供更快更高效的 AI 解决方案,强化了 NVIDIA 致力于推进 AI 技术的承诺。
Image source: Shutterstock