使用 NVIDIA 的 CUDA MPS 技术增强 GPU 内存性能
realtime news Dec 16, 2025 17:27
NVIDIA 推出 CUDA MPS,一种无需更改代码即可提升 GPU 内存性能的工具,利用 MLOPart 技术优化延迟。
NVIDIA 推出了一种新方法,通过其 CUDA 多进程服务(MPS)提升 GPU 内存性能,使开发者无需修改现有代码库即可优化 GPU 利用率。据 NVIDIA 称,该公告强调了 CUDA MPS 能够在多个进程之间共享 GPU 资源,从而提高效率和性能。
介绍 MLOPart 技术
这项发展的核心是内存局部性优化分区(MLOPart),这是专为 NVIDIA 的 CUDA MPS 设计的一个增强延迟性能的功能。MLOPart 允许多 GPU 感知的应用程序与 MLOPart 设备交互,这些设备实质上经过优化以降低延迟操作。该功能对于那些对延迟敏感而非带宽密集型的应用程序尤为重要,这在处理大型语言模型时是常见的情况。
MLOPart 设备的优势
MLOPart 设备作为独立的 CUDA 设备呈现,具有自己的计算和内存资源,类似于 NVIDIA 的多实例 GPU(MIG)技术。这允许更细粒度的资源分配,对于需要特定性能特征的应用程序特别有益。例如,NVIDIA 的 DGX B200 和 B300 系统可为每个 GPU 支持多个 MLOPart 设备,从而增强灵活性和性能调优能力。
部署与配置
使用 MLOPart 部署 CUDA MPS 通过 MPS 控制器命令进行管理,这些命令可以配置 MPS 服务器以创建启用 MLOPart 的客户端。此设置允许为各种用户需求量身定制应用环境。利用 MPS 控制器的 device_query 命令可以提供关于枚举的 CUDA 设备的见解,有助于配置和优化任务。
与 MIG 的比较分析
虽然 MLOPart 和 MIG 都提供了分区 GPU 资源的机制,但它们在不同的范式下运行。MIG 的配置需要超级用户权限,并提供严格的内存和性能隔离。相比之下,MLOPart 作为 MPS 的一部分,允许用户特定的配置而无需超级用户访问,但它不强制执行相同级别的隔离。
总体而言,NVIDIA 的 CUDA MPS 与 MLOPart 技术代表了 GPU 资源管理的一项重大进步,使开发人员在不需要大规模代码修改的情况下实现性能的提升。这一创新有望惠及广泛的应用,特别是那些需要低延迟处理能力的应用。
Image source: Shutterstock