利用人工智能代理和OODA循环提升数据中心性能

利用人工智能代理和OODA循环提升数据中心性能 - Blockchain.News

管理数据中心中大型复杂的 GPU 集群是一项艰巨的任务，需要对冷却、电力、网络等进行精细的监督。为了应对这种复杂性，NVIDIA 根据NVIDIA 技术博客，开发了一个利用 OODA 循环策略的可观测性 AI 代理框架。

人工智能驱动的可观测性框架

负责跨主要云服务提供商和 NVIDIA 自己数据中心的全球 GPU 集群的 NVIDIA DGX Cloud 团队实施了这一创新框架。该系统使操作员能够与他们的数据中心互动，询问有关 GPU 集群可靠性和其他操作指标的问题。

例如，操作员可以查询系统关于供应链风险最高的五个最常更换的部件，或安排技术人员解决最脆弱集群中的问题。这种能力是一个名为 LLo11yPop（LLM + Observability）的项目的一部分，该项目使用 OODA 循环（观察、定向、决策、行动）来增强数据中心管理。

随着每一代 GPU 的推出，对全面可观测性的需求也在增加。利用率、错误和吞吐量等标准指标只是基础。要完全了解操作环境，还必须考虑温度、湿度、电源稳定性和延迟等其他因素。

NVIDIA 的系统利用现有的可观测性工具，并将其与 NIM 微服务集成，允许操作员以人类语言与 Elasticsearch 进行对话。这提供了对整个车队中的风扇故障等问题的准确且可操作的洞察。

该框架由各种代理类型组成：

这种多代理方法模仿了组织层次结构，导演协调努力，管理者使用领域知识分配工作，工人优化特定任务。

为了管理有效集群管理所需的多样化遥测数据，NVIDIA 采用了一种混合代理（MoA）方法。这涉及使用多个大型语言模型（LLMs）来处理不同类型的数据，从 GPU 指标到 Slurm 和 Kubernetes 等编排层。

通过将小而集中的模型串联在一起，系统可以优化特定任务，例如为 Elasticsearch 生成 SQL 查询，从而优化性能和精度。

下一步是通过操作在 OODA 循环内的自主监督代理来闭合循环。这些代理观察数据，定位自己，决定行动并执行它们。起初，人类监督确保这些行动的可靠性，形成一个增强学习循环，随着时间的推移改进系统。

开发此框架的关键见解包括作为赛动作提示工程的重要性，早期模型训练的正要求选择正确的模型以完成特定任务，以及保持人类监督直到系统证明其可靠性和安全性。

NVIDIA 提供了各种工具和技术供那些有兴趣构建自己的 AI 代理和应用程序的人使用。资源可在ai.nvidia.com获取详细指南可以在 NVIDIA 开发者博客上找到。

Image source: Shutterstock