NVIDIA NCCL 2.28全新设备API革新GPU通信
realtime news Nov 11, 2025 00:06
NVIDIA最新发布的NCCL 2.28引入了设备API,增强了GPU网络的通信和计算融合,提高了性能和效率。
NVIDIA集体通信库(NCCL)推出了其最新版本NCCL 2.28,这是GPU通信技术的重大进步。根据NVIDIA的说法,此次更新专注于通信和计算的融合,旨在提高吞吐量、减少延迟并最大化多GPU和多节点系统中的GPU利用率。
NCCL 2.28的关键特性
NCCL 2.28带来了几个新特性,包括GPU发起的网络通信、用于通信-计算融合的设备API以及基于复制引擎的集体操作。这些创新旨在赋能开发人员创建高效、可扩展的分布式应用程序。此次发布还包括扩展的API、改进的工具和更干净的集成路径,便于开发自定义通信内核。
设备API和复制引擎集体操作
新的设备API允许开发自定义设备内核,在NVIDIA CUDA内核中集成通信,消除主机发起操作的需求。这种集成减少了同步开销,从而增加吞吐量并降低延迟。引入了三种操作模式:Load/Store Accessible (LSA)、Multimem和GPU Initiated Networking (GIN),每种模式支持不同的通信场景。
此外,基于复制引擎的集体操作通过将通信任务从流多处理器(SM)卸载到专用硬件,从而实现高效的NVLink传输。此方法最小化了资源争用,允许通信和计算任务的同时执行。
增强的NCCL Inspector性能分析
NCCL Inspector是一款新的分析工具,提供对NCCL通信模式的持续可观测性和分析。它提供详细的性能和元数据记录,帮助开发人员高效分析和调试集体操作。该插件单独跟踪每个NCCL通信器,提供不同通信上下文中的性能模式洞察。
开发者体验改进
NCCL 2.28通过AllToAll、Gather和Scatter等操作的新API增强了开发者体验。它通过环境插件API引入了灵活的配置管理,方便实现程序版本匹配和配置存储无关的设置。此外,此次发布支持Linux构建的CMake,简化了与更大构建流水线的集成。
有关NCCL 2.28及其特性的更多详情,请访问官方NVIDIA博客。
Image source: Shutterstock