作为简化 AI 应用开发的重要举措,NVIDIA 推出了其 Cloud Native Stack (CNS),这是一种强大的开源参考架构,旨在优化 AI 工作负载的部署和管理。根据NVIDIA 技术博客,CNS 满足了 AI 和数据科学领域对可扩展和高效基础设施日益增长的需求。
CNS 的特性和优势
CNS 提供了一种综合架构,简化了使用 Kubernetes 管理 GPU 加速应用的过程。堆栈支持多实例 GPU (MIG) 和 GPUDirect RDMA 等功能,这对于处理数据密集型 AI 模型至关重要。该设置确保在 CNS 上开发的应用与 NVIDIA AI 企业部署无缝兼容,从而促进从开发到生产的顺利过渡。
该堆栈设计灵活,允许在裸机、云或虚拟机环境中部署。对于希望有效扩展其 AI 项目的组织来说,这种灵活性至关重要。CNS 还包括可选的附加组件,如 microK8s、存储解决方案、负载均衡和监控工具,默认情况下是禁用的,但可以根据需要启用。
KServe 的增强功能
CNS 中的 KServe 集成在提升 AI 模型评估和部署方面发挥了关键作用。通过利用 Kubernetes 的可扩展性和弹性,KServe 简化了 AI 模型的原型设计和部署,确保高效管理与 AI 模型训练和推理相关的复杂工作流。
使用 KServe 部署 NVIDIA NIM
在 CNS 上将 NVIDIA NIM 与 KServe 集成进一步简化了 AI 工作流,确保其可扩展、弹性和易于管理。这种组合实现了与其他微服务的无缝集成,为 AI 应用开发创建了强大的平台。使用 Kubernetes 和 KServe 简化了部署过程,支持高级 GPU 功能的集成。
总结
NVIDIA 的云原生堆栈代表了 AI 基础设施管理的重要进步。通过提供经验证的参考架构,CNS 使组织能够专注于创新而非基础设施复杂性。其在多种环境下运行的能力及其综合工具集,使其成为希望增强 AI 能力的组织的理想解决方案。
总体而言,CNS 与 KServe 结合,为 AI 模型和应用开发提供了强大的解决方案,为 AI 领域的更高效率和创新铺平了道路。
Image source: Shutterstock