AMD 发布 ROCm 6.2:通过新增强提升 AI 和 HPC 性能

realtime news  Aug 06, 2024 11:43  UTC 03:43

1 Min Read

AMD 宣布发布 ROCm 6.2,这是一次旨在增强 AI 和高性能计算 (HPC) 应用性能、效率和可扩展性的重大更新。根据 AMD.com的消息,此次发布包括几项关键改进,巩固了 ROCm 作为 AI 和 HPC 开发领先平台的地位。

扩展 vLLM 支持

ROCm 6.2 扩展了 vLLM 支持,以提高 AMD Instinct™ 加速器上 AI 模型的效率和可扩展性。vLLM 专为大型语言模型(LLM)设计,解决了诸如高效多 GPU 计算、减少内存使用和最小化计算瓶颈等关键推理难题。此次更新启用了多 GPU 执行和 FP8 KV 缓存等各种上游 vLLM 功能,使开发者更容易解决复杂的 AI 任务。

Bitsandbytes 量化

在 ROCm 6.2 中包含的 Bitsandbytes 量化库显著提高了 AMD Instinct™ GPU 加速器的内存效率和性能。利用 8 位优化器,它减少了 AI 训练期间的内存使用,允许开发者在有限的硬件上处理更大的模型。LLM.Int8() 量化优化了 AI 部署,使高级 AI 功能更加可访问且成本更低。

新的离线安装程序创建器

新的 ROCm 离线安装程序创建器简化了无网络访问系统的安装过程。它创建了一个包含所有必要依赖项的单一安装文件,使部署变得简单明了。此工具将各种功能集成到一个统一的界面中,自动化安装后任务,确保正确一致的安装,提高了整体系统稳定性。

Omnitrace 和 Omniperf 分析工具

ROCm 6.2 中引入了 Omnitrace 和 Omniperf 分析工具(测试版),旨在革新 AI 和 HPC 开发。Omnitrace 提供了 CPU、GPU、NIC 和网络结构的系统性能全景视图,而 Omniperf 提供了详细的 GPU 内核分析以进行微调。这些工具帮助开发者识别并解决性能瓶颈,确保高效资源利用和更快的 AI 训练和 HPC 模拟。

更广泛的 FP8 支持

ROCm 6.2 在其生态系统中扩展了 FP8 支持,通过解决高精度格式相关的内存瓶颈和高延迟来增强 AI 推理。更新包括 PyTorch 和 JAX 中的 FP8 GEMM 支持,RCCL 中的 FP8 特定合集操作,以及 MIOPEN 中的基于 FP8 的 Fused Flash attention。这些增强措施使训练和推理过程更加高效,最大化吞吐量并减少延迟。

通过发布 ROCm 6.2,AMD 继续展示其为 AI 和 HPC 社区提供强大、竞争和创新解决方案的承诺。开发者现在拥有了推动可能性边界的工具和支持,加强了 ROCm 作为下一代计算任务首选开放平台的信心。

通过查看 发布说明,探索 ROCm 6.2 引入的各项新功能。



Read More