利用人工智能代理和OODA循环提升数据中心性能 - Blockchain.News

利用人工智能代理和OODA循环提升数据中心性能

realtime news Sep 17, 2024 17:35

NVIDIA 介绍了一种使用 OODA 循环策略的可观测性 AI 代理框架,以优化数据中心中复杂 GPU 集群的管理。

利用人工智能代理和OODA循环提升数据中心性能

管理数据中心中大型复杂的 GPU 集群是一项艰巨的任务,需要对冷却、电力、网络等进行精细的监督。为了应对这种复杂性,NVIDIA 根据NVIDIA 技术博客,开发了一个利用 OODA 循环策略的可观测性 AI 代理框架。

人工智能驱动的可观测性框架

负责跨主要云服务提供商和 NVIDIA 自己数据中心的全球 GPU 集群的 NVIDIA DGX Cloud 团队实施了这一创新框架。该系统使操作员能够与他们的数据中心互动,询问有关 GPU 集群可靠性和其他操作指标的问题。

例如,操作员可以查询系统关于供应链风险最高的五个最常更换的部件,或安排技术人员解决最脆弱集群中的问题。这种能力是一个名为 LLo11yPop(LLM + Observability)的项目的一部分,该项目使用 OODA 循环(观察、定向、决策、行动)来增强数据中心管理。

监控加速数据中心

随着每一代 GPU 的推出,对全面可观测性的需求也在增加。利用率、错误和吞吐量等标准指标只是基础。要完全了解操作环境,还必须考虑温度、湿度、电源稳定性和延迟等其他因素。

NVIDIA 的系统利用现有的可观测性工具,并将其与 NIM 微服务集成,允许操作员以人类语言与 Elasticsearch 进行对话。这提供了对整个车队中的风扇故障等问题的准确且可操作的洞察。

模型架构

该框架由各种代理类型组成:

  • 协调员代理:将问题路由到适当的分析员并选择最佳行动。
  • 分析员代理:将广泛的问题转换为由检索代理回答的具体查询。
  • 行动代理:协调响应,例如通知站点可靠性工程师(SREs)。
  • 检索代理:针对数据源或服务端点执行查询。
  • 任务执行代理:通过工作流引擎执行特定任务。

这种多代理方法模仿了组织层次结构,导演协调努力,管理者使用领域知识分配工作,工人优化特定任务。

朝多 LLM 复合模型迈进

为了管理有效集群管理所需的多样化遥测数据,NVIDIA 采用了一种混合代理(MoA)方法。这涉及使用多个大型语言模型(LLMs)来处理不同类型的数据,从 GPU 指标到 Slurm 和 Kubernetes 等编排层。

通过将小而集中的模型串联在一起,系统可以优化特定任务,例如为 Elasticsearch 生成 SQL 查询,从而优化性能和精度。

带有 OODA 循环的自主代理

下一步是通过操作在 OODA 循环内的自主监督代理来闭合循环。这些代理观察数据,定位自己,决定行动并执行它们。起初,人类监督确保这些行动的可靠性,形成一个增强学习循环,随着时间的推移改进系统。

经验教训

开发此框架的关键见解包括作为赛动作提示工程的重要性,早期模型训练的正要求选择正确的模型以完成特定任务,以及保持人类监督直到系统证明其可靠性和安全性。

构建您的 AI 代理应用程序

NVIDIA 提供了各种工具和技术供那些有兴趣构建自己的 AI 代理和应用程序的人使用。资源可在ai.nvidia.com获取 详细指南可以在 NVIDIA 开发者博客上找到。

Image source: Shutterstock