AI21 Labs 推出混合架构 Jamba 1.5 大语言模型,增强推理能力

realtime news  Aug 23, 2024 03:07  UTC 19:07

1 Min Read

根据NVIDIA 技术博客,AI21 Labs 推出了 Jamba 1.5 模型家族,这是一组先进的大语言模型(LLMs),旨在各种生成式 AI 任务中表现出色。

混合架构提供卓越性能

Jamba 1.5 系列采用结合 Mamba 和 Transformer 架构的混合方法,并辅以专家混合(MoE)模块。这种架构在长上下文处理方面表现出色,且计算开销最低,同时确保推理任务的高准确性。MoE 模块通过在生成 token 时仅使用可用参数的一部分来增加模型的容量,而不会增加计算需求。

每个 Jamba 模块配有八层和 1:7 的注意力到 Mamba 比例,适合单个 NVIDIA H100 80 GB GPU。该模型的架构平衡了内存使用和计算效率,使其适用于各种企业应用。

Jamba 1.5 模型还拥有广泛的 256K token 上下文窗口,能够处理大约 800 页文本。这一功能通过在长上下文中保留更多相关信息来提高响应的准确性。

通过函数调用和 JSON 支持增强 AI 交互性

Jamba 1.5 模型的一个突出特点是其强大的函数调用功能,支持 JSON 数据交换。这一功能使模型能够执行复杂操作和处理复杂查询,增强 AI 应用的交互性和相关性。

例如,企业可以部署这些模型来执行实时、高精度任务,如为金融服务生成贷款条款表或在零售环境中充当购物助理。

通过检索增强生成最大化准确性

Jamba 1.5 模型针对检索增强生成(RAG)进行了优化,提高了其提供上下文相关响应的能力。256K token 上下文窗口允许在不需要连续分块的情况下处理大量信息,非常适合需要综合数据分析的场景。

RAG 在知识库广泛且分散的环境中特别有用,使模型能够高效地检索和提供更相关的信息。

开始使用

Jamba 1.5 模型现已在 NVIDIA API 目录中提供,加入超过 100 种由 NVIDIA NIM 微服务支持的热门 AI 模型。这些微服务简化了各类企业应用中性能优化模型的部署。

NVIDIA 与领先的模型构建者合作,支持包括 Llama 3.1 405B、Mistral 8x22B、Phi-3 和 Nemotron 340B 奖励在内的各种模型。欲了解更多信息并探索这些模型,请访问ai.nvidia.com



Read More