NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统 - Blockchain.News

NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统

realtime news Oct 02, 2024 18:22

NVIDIA 和 Outerbounds 合作,通过先进的微服务和 MLOps 平台简化 LLM 驱动的生产系统的开发和部署。

NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统

随着过去 18 个月中语言模型的迅速扩展,现在已有数百种变体,包括大型语言模型(LLM)、小型语言模型(SLM)和特定领域的模型。根据 NVIDIA 技术博客,其中许多模型可免费用于商业用途,使得使用自定义数据集进行微调变得越来越经济实惠且简单。

使用 NVIDIA NIM 构建 LLM 驱动的企业应用程序

NVIDIA NIM 提供了能够自托管 GPU 加速微服务的容器,用于预训练和定制的 AI 模型。Outerbounds 从 Netflix 衍生出来,是一个由开源框架 Metaflow 驱动的 MLOps 和 AI 平台。它们共同实现了对 LLM 和围绕它们构建的系统的高效和安全管理。

NVIDIA NIM 提供了一系列预包装和优化的社区创建的 LLM,可以在私有环境中部署,从而避免第三方服务带来的安全和数据治理问题。自发布以来,Outerbounds 一直在帮助公司开发 LLM 驱动的企业应用程序,将 NIM 集成到其平台中,以实现跨云和本地资源的安全部署。

术语 LLMOps 描述了管理大语言模型依赖项和操作的实践,而 MLOps 涵盖了监督多个领域的机器学习模型的更广泛任务。

阶段 1:开发 LLM 支持的系统

第一阶段涉及设置一个高效的开发环境,用于快速迭代和实验。NVIDIA NIM 微服务提供了可以在安全、私密环境中部署的优化 LLM。这一阶段包括微调模型、构建工作流并使用真实世界数据进行测试,同时确保数据控制并最大化 LLM 性能。

Outerbounds 帮助在公司云帐户内部署开发环境,使用现有的数据治理规则和边界。NIM 曝光了一个与 OpenAI 兼容的 API,使开发者能够使用现成框架访问私有端点。利用 Metaflow,开发者可以创建包含 NIM 微服务的端到端工作流。

阶段 2:LLM 系统的持续改进

为了确保一致、持续的改进,开发环境需要适当的版本控制、跟踪和监控。Metaflow 的内置工件和标签有助于跟踪提示、响应和使用的模型,促进开发团队之间的协作。将 LLM 作为系统的核心依赖项可以确保随着模型的发展保持稳定性。

在受控环境中部署 NIM 微服务可以可靠地管理模型生命周期,将提示和评估与确切的模型版本关联。像 Metaflow 卡片这样的监控工具可以可视化关键指标,确保系统可观测并及时解决性能问题。

阶段 3:CI/CD 和生产上线

集成持续集成和持续交付实践可确保 LLM 驱动的系统顺利上线。自动化流水线允许持续改进和更新,同时保持系统稳定性。逐步部署和 A/B 测试有助于在现场环境中管理 LLM 系统的复杂性。

隔离业务逻辑和模型,同时统一计算资源,有助于维护稳定、高可用的生产部署环境。跨开发和生产利用共享计算池,提高了 GPU 资源的利用率,降低了成本。Metaflow 事件触发器将 LLM 驱动的系统与上游数据源和下游系统集成,确保兼容性和稳定性。

结论

LLM 驱动的系统应像任何其他大型软件系统一样处理,重点放在弹性和持续改进上。NVIDIA NIM 以标准容器镜像的形式提供 LLM,实现稳定和安全的生产系统,同时不牺牲创新速度。通过采用软件工程中的最佳实践,组织可以构建适应不断变化的业务需求的强大 LLM 驱动的应用程序。

Image source: Shutterstock