NVIDIA 和 DDN 合作,通过 BlueField-3 DPU 集成增强 AI 基础设施

realtime news  Jul 24, 2024 07:22  UTC 23:22

1 Min Read

随着 AI 成为组织创新和竞争优势的关键,效率高、可扩展的基础设施需求比以往任何时候都更为重要。NVIDIA 和 DDN Storage 之间的合作正在这一领域设定新的标准。根据 NVIDIA 技术博客,通过将 NVIDIA BlueField DPUs 集成到 DDN EXAScaler 和 DDN Infinia 中,DDN Storage 正在改变以数据为中心的工作负载。

一体化 DPU 存储解决方案

DDN Infinia 是一个软件定义的数据平台,利用 BlueField-3 DPUs 的力量有效管理以数据为中心的工作负载,特别是在加速计算和生成式 AI 方面。该集成增强了多租户功能,提高了运营效率,并加强了数据保护。这使得其成为希望利用 AI 和云技术推动创新和运营敏捷性的组织的理想解决方案。

他们的解决方案包括几个关键组件:

  • 卸载数据处理
  • 加速存储性能
  • 提高效率
  • 支持多租户
  • 增强安全性
  • 增强扩展性

卸载数据处理

BlueField DPUs 通过接管数据处理任务来减轻 CPU 的负担,从而释放计算资源并提高整体系统性能。这种存储和安全任务的卸载使 CPU 使用更加高效,显著减少延迟并加快数据处理速度。

加速存储性能

由 BlueField DPUs 支持的 DDN 存储解决方案提升了 AI 工作负载的存储性能。利用 BlueField DPUs 的先进数据处理能力,这些解决方案实现了更高的吞吐量和改进的系统响应能力,以加速 AI 应用。

NVIDIA GPUDirect Storage (GDS) 促进了 GPU 平台与存储之间的直接数据路径,减少了系统内存流量,从而提高带宽并降低 CPU 负载,以优化 AI 工作流程。

提高效率

传统存储系统在通用 x86 CPU 上执行诸如闪存管理、RAID、访问控制和加密等各种任务。然而,随着网络速度和安全需求的增加,它们变得效率低下。

将 BlueField DPUs 集成到存储服务器和主机访问中,通过卸载和加速任务(如 NVMe-oF 存储协议)显著提高了存储效率,从而释放 CPU 周期用于其他应用。

支持多租户

DDN Infinia 存储平台采用容器化技术,使得不同的存储功能可以在独立的容器中运行。这种架构有助于扩展并通过卸载任务到 DPUs 来优化整个数据路径,从而减少延迟。

多租户部署将多个命名空间整合在一个文件系统中,提高了容量利用率,降低了硬件成本,同时简化了部署和管理。

BlueField DPUs 的硬件隔离和资源分配能力使得多个用户和应用程序能够安全共享基础设施资源,提高了资源利用率和运营效率。

图 1. DDN Infinia 安全隔离用户数据

增强安全性

BlueField DPUs 的专用处理资源和内存提供了一个安全环境,防止未经授权的访问并保护系统免受潜在攻击。硬件加速的加密确保存储系统中的数据在静止状态下被加密,从而保护敏感信息。

BlueField DPU 的访问控制机制允许管理员定义和执行细粒度的访问策略,确保只有授权用户或应用程序能够访问和修改数据,并在启动过程中验证固件和软件组件的完整性,防止篡改或未经授权的修改。

将与安全相关的任务从主机 CPU 卸载后,减少了攻击面并释放 CPU 资源用于其他关键任务。

通过这些综合的安全功能,BlueField DPUs 为 AI 工作负载和从 DPU 到 CPU 的数据提供了强大的安全存储解决方案。这种综合的技术堆栈确保了数据的保护,解决了 AI 驱动环境中对数据安全性和完整性的担忧。组织可以对抗网络威胁和未经授权的访问,提高整体数据安全性和合规性。

增强扩展性

DDN Infinia 是一个完全容器化的平台,围绕一组协调的微服务架构,提供完整的存储服务。利用 BlueField DPUs,DDN 开发了一种全新的架构,支持完整的云原生栈。这种对 BlueField DPUs 的创新使用使存储平台能够延伸到整个网络。

具体来说,DDN Infinia 的 Amazon S3 对象服务是容器化的,可以独立于 Infinia 存储系统运行,使用 NVIDIA DGX 客户系统中的 NVIDIA DPUs 资源。这种设计转换彻底革新了数据通过存储系统的流动方式。传统上,Amazon S3 对象调用本地发送到 BlueField 上运行的服务。传统存储依赖于通过网络发送的命令(RESTful 调用),速度可能较慢。

使用 BlueField,这些调用被替换为从 DPU 到存储系统的 RDMA 调用。这将存储任务从主系统卸载,并使用更高效的数据路径,显著减少延迟并提高 AI 加速的带宽。这种存储架构的重新配置改变了 Amazon S3 对象数据路径,显著提高了性能和扩展性。

总结

DDN 和 NVIDIA 的合作有望显著推动数据中心基础设施内的 AI 应用,为更高效和安全的 AI 驱动工作流程铺平道路。通过使用先进数据处理和存储解决方案的综合优势,组织可以期待 AI 创举中的效率、可扩展性和安全性提升。

了解 DDN 如何在加速计算时代推动生成式 AI 和加速数据处理的以下资源:



Read More