NVIDIA GH200 超级芯片以前所未有的效率革新 Apache Spark

realtime news Aug 21, 2024 17:30 UTC 09:30

1 Min Read

随着生成式 AI 的增长持续激增，IT 领导者正在寻求优化数据中心资源的方法。根据 NVIDIA 技术博客，新推出的 NVIDIA GH200 Grace Hopper 超级芯片为 Apache Spark 用户提供了突破性的解决方案，承诺在能源效率和节点整合方面实现显著改进。

解决基于 CPU 的 Apache Spark 系统中的传统瓶颈

作为一种多语言开源系统，Apache Spark 在各个行业中处理海量数据方面发挥了重要作用。尽管有其优势，传统的基于 CPU 的系统仍面临重大限制，导致数据处理工作流程效率低下。

NVIDIA 的 GH200 超级芯片通过集成基于 Arm 的 Grace CPU 和 Hopper GPU 架构解决了这些限制，并通过 NVLink-C2C 技术连接。这种集成提供了高达 900 GB/s 的带宽，显著超越了传统系统中的标准 PCIe Gen5 通道。

GH200 的架构允许 CPU 和 GPU 之间无缝共享内存，消除了数据传输的需求，从而将 Apache Spark 工作负载加速多达 35 倍。对于超过 1,500 个节点的大型集群，这意味着节点数量减少高达 22 倍，每年节省高达 14 GWh 的能量。

使用 NVIDIA 决策支持 (NDS) 基准测试显示，在 GH200 上运行 Apache Spark 的速度显著快于高级 x86 CPU。具体地说，在 10 TB 数据集上执行 100 多个 TPC-DS SQL 查询仅用了 6 分钟，而在 x86 CPU 上需要 42 分钟。

显著查询加速包括：

随着数据集的增大，GH200 的效率变得更加明显。在一个 100 TB 的数据集中，GH200 在一个 16 节点的集群上仅需 40 分钟，而传统设置需要 344 个 CPU 才能达到相同的结果。这意味着节点数量减少 22 倍，能源节省 12 倍。

HEAVY.AI 对 GH200 与一个 8x NVIDIA A100 PCIe 实例进行了基准测试，报告了在 100 TB 数据集上实现了 5 倍加速和 16 倍成本节省。在更大的 200 TB 数据集上，GH200 仍实现了 2 倍加速和 6 倍成本节省。

HEAVY.AI 的首席技术官兼联合创始人 Todd Mostak 表示：“我们的客户做出数据驱动的、时间敏感的决策，这些决策对其业务有巨大影响。我们对 GH200 将为我们的客户解锁的新业务洞察和成本节省感到兴奋。”

企业可以利用 RAPIDS 加速器无缝迁移工作负载到 GH200。此迁移承诺显著的运营效率，GH200 已在全球九台超级计算机上运行，并可通过各种云提供商获取。欲了解更多详细信息，请访问 NVIDIA 技术博客。