日本通过最先进的ABCI 3.0超级计算机提升AI主权

realtime news  Jul 11, 2024 19:50  UTC 11:50

1 Min Read

根据NVIDIA博客,为提高日本的AI主权并增强其研发能力,日本先进工业科学与技术研究所(AIST)将成千上万的NVIDIA H200 Tensor Core GPU集成到其AI衔接云基础设施3.0超级计算机(ABCI 3.0)中。HPE Cray XD系统将采用NVIDIA Quantum-2 InfiniBand网络,以实现卓越的性能和可扩展性。

ABCI 3.0:日本AI研发的新纪元

ABCI 3.0是日本大型开放AI计算基础设施的最新版本,旨在推进AI研发。此次合作体现了日本推进AI能力及提升技术独立性的坚定承诺。

“2018年8月,我们推出了全球首个大规模开放AI计算基础设施ABCI,” AIST执行官田中良雄表示。“基于这几年管理ABCI的经验,我们现在正在升级到ABCI 3.0。通过与NVIDIA和HPE的合作,我们旨在将ABCI 3.0发展成一个能够推动日本生成式AI进一步研究和发展的计算基础设施。”

“随着生成式AI即将在全球范围内引发变革,迅速培养日本的研究和发展能力至关重要,” AIST解决方案公司制片人兼ABCI运营主管小川浩贵补充道。“我相信,在与NVIDIA和HPE的合作中,ABCI的重大升级将增强ABCI在国内产业和学术界的领导地位,推动日本在AI发展的全球竞争力,并成为未来创新的基础。”

ABCI 3.0超级计算机将设在由日本先进工业科学与技术研究所运行的柏市设施内。图片来源:日本先进工业科学与技术研究所提供。

NVIDIA对日本未来的承诺

NVIDIA正在与日本经济产业省(METI)密切合作进行研究和教育。去年,公司创始人兼首席执行官黄仁勋访问日本,与包括日本首相岸田文雄在内的政治和商业领袖会面,讨论了AI的未来发展。

黄仁勋承诺在生成式AI、机器人和量子计算方面进行合作研究,投资AI初创公司,并提供产品支持、培训和AI教育。

在访问期间,黄仁勋强调,“AI工厂” — 旨在处理最复杂AI任务的下一代数据中心 — 对将大量数据转化为智能至关重要。黄仁勋在12月的一次日本媒体会议上表示:“AI工厂将成为全球现代经济的基石。”

该系统预计将在今年年底上线,提供最先进的AI研究和开发资源。它将设在靠近东京的柏市。

无与伦比的计算性能和效率

该设施将提供:

  • 6个AI exaflops的计算能力,这是一种不包含稀疏性的AI特定性能指标
  • 410个双精度petaflops,一种通用计算能力的测量单位
  • 每个节点通过Quantum-2 InfiniBand平台连接,拥有200GB/s的双向带宽。

NVIDIA技术是该计划的核心,每个节点配备8个通过NVLink连接的H200 GPU,提供前所未有的计算性能和效率。

NVIDIA H200是首个提供超过140GB HBM3e内存(4.8 terabytes per second (TB/s) 数据传输速度)的GPU。H200更大且更快的内存加速了生成式AI和LLM,同时提升了科学计算在HPC工作负载中的能效,并降低了总体拥有成本。

高级NVIDIA Quantum-2 InfiniBand与In-Network计算的集成(即网络设备在数据上执行计算,将工作从CPU中卸除)确保了高效、高速、低延迟的通讯,这是处理密集型AI工作负载和庞大数据集的关键。

ABCI拥有世界一流的计算和数据处理能力,作为一个平台加速工业、学术界和政府间的联合AI研发。

经济产业省的巨额投资体现了日本提升AI开发能力和加速生成式AI使用的战略愿景。

通过对AI超级计算机开发的资助,日本旨在减少开发下一代AI技术的时间和成本,使其在全球AI领域中占据领导地位。



Read More