NVIDIA BlueField DPUs 提升 VAST Data 平台以优化 AI 工作负载

realtime news  Aug 07, 2024 05:05  UTC 21:05

1 Min Read

随着对先进 AI 能力需求的不断高涨,VAST Data 推出了 VAST Data 平台,现在已通过 NVIDIA BlueField DPUs 进行了增强。据 NVIDIA 技术博客称,此创新旨在满足 AI 驱动型数据中心的严格要求,并优化 AI 工作负载和数据管理。

管理 AI 工作负载的挑战

优化 AI 工作负载需要管理大量非结构化数据,确保高速数据访问,并保持强大的数据安全性。传统的数据存储和处理系统常常面临延迟、效率低下和可扩展性问题,这可能影响 AI 应用的性能。此外,实时数据处理的需求和严格的安全要求使得有效管理 AI 工作负载变得更加复杂。

NVIDIA BlueField DPUs 的优势

BlueField-3 DPUs 使得组织能够满足现代 AI 工作负载的严苛要求,确保更快的数据访问、强大的安全性能和整体效率的提升。将 NVIDIA BlueField DPUs 集成到 VAST Data 平台代表了存储处理技术的一大飞跃。通过将基本存储操作卸载到 DPU,结果是减少了功耗和空间,同时还增强了存储网络带宽、提升了性能并确保了可扩展性。

提升存储效率、数据完整性和安全性

VAST Data 最新的产品将高密度存储与先进的 BlueField DPU 技术相结合。这一强大组合确保了卓越的性能、最大化的效率,并提供了满足最严格 AI 环境需求的可扩展性。

NVIDIA BlueField DPUs 提升了服务器、存储控制器和存储机箱中的存储性能、安全性和效率

在 VAST Data 的传统架构中,CNodes(计算节点)是 x86 服务器,负责运行存储协议和管理服务。VAST 的独特方法是将 NVIDIA BlueField DPUs 集成到其平台中。此集成将关键的存储操作从 CPU 卸载到 DPU,增强了存储网络带宽,并减少了功耗。卸载到 DPUs 允许减少所需的专用 CNodes 数量,因为 DPUs 可以更高效地处理必要的计算任务。

同样,通过减少计算节点,对外部网络交换机的依赖也减少了,从而降低了所需的交换机端口数量,以及管理它们的复杂性和成本,从而简化了网络架构。BlueField DPUs 显著增强了通过卸载和隔离存储功能来处理 I/O 操作,辅助并行数据服务,并在 AI 环境中提供块存储服务。其结果是更精简、更高效的基础设施,所需的物理服务器数量更少,但同样能够达到相同的性能水平。

NVIDIA BlueField DPUs 从多方面提升了 VAST Data 平台,包括:

  • 提高 I/O 性能: BlueField 支持 NVMe 存储访问,可处理超过 60 GB/s 的数据速度,优化数据密集型应用的访问速度。
  • 更好的存储性能: 支持高达 400 Gbps 的速度,BlueField DPUs 提高了吞吐量和 I/O 效率。诸如 GPUDirect Storage 和 RDMA over Converged Ethernet (ROCE) 等功能促进了高效、低延迟的数据传输,这是高速数据密集型应用所必需的。
  • 服务质量: 每个 GPU 服务器都配备了专用的 BlueField-3 DPU,为 VAST 平行服务操作系统提供动力。这允许每个 DPU 在无需协调 I/O 的情况下直接读取和写入 VAST Data 平台的共享命名空间,从而消除争用。
  • 加速安全性能: BlueField DPUs 卸载了关键的安全任务,如加密和深度数据包检测,减少了 CPU 的计算负载,并增强了整体系统性能。BlueField-3 也消除了处理 I/O 所需的内核驱动程序的需求。这种方法减少了攻击面,降低了主机漏洞的潜在影响,尤其是在多租户环境中。
  • 提升效率: BlueField DPUs 显著增强了存储处理能力,减少了功耗和空间要求,同时提升了存储网络带宽。

结果

将 NVIDIA BlueField DPUs 集成到 VAST Data 平台产生了令人印象深刻的结果:

  • 增强性能: BlueField-3 将计算密集型任务从主要 CPU 卸载出去以提升性能,这对 AI 应用至关重要。
  • 服务质量: 通过在容器内操作共享命名空间,每个 GPU 服务器都有一个专用的 BlueField DPU,这允许直接与数据节点通信,减少了延迟和跳数以简化 I/O 操作。
  • 提升效率: 通过减少 77% 的功耗和 73% 的机架空间要求,该平台为数据中心提供了更可持续的解决方案。
  • 强大的安全性: 增强的安全功能确保数据完整性并防止未经授权的访问。

这些进步使得 VAST Data 平台成为驱动 AI 驱动数据中心性能和效率的关键组件。该平台以最小的延迟和高安全性处理大量数据的能力尤为显著,为 AI 创新提供了坚实的基础。

通过整合 BlueField,VAST 加速了运营,简化了安全管理,并提升了监控能力。BlueField 提供改进的数据服务和强大的安全功能,包括高级遥测功能用于实时洞察和快速异常检测。这种集成不仅优化了性能,还减少了对广泛硬件的需求,使系统更高效且更具成本效益。BlueField DPU 是推动 VAST Data 平台先进性能和效率的关键组件,专为现代 AI 数据中心量身定制。

VAST Data 和 NVIDIA 之间的合作在推进 AI 基础设施方面具有重要意义,并且已经彻底改变了 AI 驱动的数据基础设施的格局。通过利用 BlueField-3 DPUs,VAST Data 成功地增强了其 AI 云架构,提供前所未有的性能、安全性和效率。此集成使 VAST Data 能够将关键的网络、存储和安全任务从 CPU 卸载到 DPU,显著减少了数据中心的占地面积和功耗。

总结

NVIDIA 和 VAST Data 合作开发了一种为现代企业和服务提供商量身定制的强大、可扩展且安全的 AI 基础设施。该集成解决方案提升了 AI 工作负载的性能,并简化了广泛 AI 系统的部署和管理。

此外,BlueField-3 DPUs 使 VAST Data 能够采用零信任安全模型,确保数据隔离和强有力的威胁防护。这是多租户环境中数据管理安全和高效的关键特性。DPUs 还能够在 AI 服务器中直接集成存储和安全处理服务,并实施服务质量 (QoS) 功能,以协调 DNodes(数据节点)之间的 I/O,从而实现真正的线性可扩展性,并消除对数据服务的争用。

随着 AI 继续推动创新和重塑行业,VAST Data 和 NVIDIA 的合作展示了将先进 DPU 技术融入数据中心架构的诸多好处。

要了解更多关于合作伙伴关系和技术创新的信息,请访问 NVIDIA 技术博客



Read More