NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统

NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统 - Blockchain.News

随着过去 18 个月中语言模型的迅速扩展，现在已有数百种变体，包括大型语言模型（LLM）、小型语言模型（SLM）和特定领域的模型。根据 NVIDIA 技术博客，其中许多模型可免费用于商业用途，使得使用自定义数据集进行微调变得越来越经济实惠且简单。

使用 NVIDIA NIM 构建 LLM 驱动的企业应用程序

NVIDIA NIM 提供了能够自托管 GPU 加速微服务的容器，用于预训练和定制的 AI 模型。Outerbounds 从 Netflix 衍生出来，是一个由开源框架 Metaflow 驱动的 MLOps 和 AI 平台。它们共同实现了对 LLM 和围绕它们构建的系统的高效和安全管理。

NVIDIA NIM 提供了一系列预包装和优化的社区创建的 LLM，可以在私有环境中部署，从而避免第三方服务带来的安全和数据治理问题。自发布以来，Outerbounds 一直在帮助公司开发 LLM 驱动的企业应用程序，将 NIM 集成到其平台中，以实现跨云和本地资源的安全部署。

术语 LLMOps 描述了管理大语言模型依赖项和操作的实践，而 MLOps 涵盖了监督多个领域的机器学习模型的更广泛任务。

第一阶段涉及设置一个高效的开发环境，用于快速迭代和实验。NVIDIA NIM 微服务提供了可以在安全、私密环境中部署的优化 LLM。这一阶段包括微调模型、构建工作流并使用真实世界数据进行测试，同时确保数据控制并最大化 LLM 性能。

Outerbounds 帮助在公司云帐户内部署开发环境，使用现有的数据治理规则和边界。NIM 曝光了一个与 OpenAI 兼容的 API，使开发者能够使用现成框架访问私有端点。利用 Metaflow，开发者可以创建包含 NIM 微服务的端到端工作流。

为了确保一致、持续的改进，开发环境需要适当的版本控制、跟踪和监控。Metaflow 的内置工件和标签有助于跟踪提示、响应和使用的模型，促进开发团队之间的协作。将 LLM 作为系统的核心依赖项可以确保随着模型的发展保持稳定性。

在受控环境中部署 NIM 微服务可以可靠地管理模型生命周期，将提示和评估与确切的模型版本关联。像 Metaflow 卡片这样的监控工具可以可视化关键指标，确保系统可观测并及时解决性能问题。

集成持续集成和持续交付实践可确保 LLM 驱动的系统顺利上线。自动化流水线允许持续改进和更新，同时保持系统稳定性。逐步部署和 A/B 测试有助于在现场环境中管理 LLM 系统的复杂性。

隔离业务逻辑和模型，同时统一计算资源，有助于维护稳定、高可用的生产部署环境。跨开发和生产利用共享计算池，提高了 GPU 资源的利用率，降低了成本。Metaflow 事件触发器将 LLM 驱动的系统与上游数据源和下游系统集成，确保兼容性和稳定性。

LLM 驱动的系统应像任何其他大型软件系统一样处理，重点放在弹性和持续改进上。NVIDIA NIM 以标准容器镜像的形式提供 LLM，实现稳定和安全的生产系统，同时不牺牲创新速度。通过采用软件工程中的最佳实践，组织可以构建适应不断变化的业务需求的强大 LLM 驱动的应用程序。

Image source: Shutterstock