增强大语言模型：内存扩展显示出巨大潜力

增强大语言模型：内存扩展显示出巨大潜力 - Blockchain.News

IBM 研究院正在研究内存扩展策略，以解决大语言模型（LLMs）中持久存在的内存容量问题。这些模型通常在处理长输入序列时会遇到困难，并且需用大量内存资源，这些资源迅速因新信息的出现而过时。根据IBM 研究院的说法，此研究旨在减少 AI 推理所需的计算资源，同时提高这些模型生成内容的准确性。

内存扩展的创新方法

在他们的努力中，IBM 科学家借鉴了人类心理学和神经科学，从计算机代码中建模人类记忆的各个方面。尽管 LLMs 可以生成看似深思熟虑的文本，但它们缺乏长期记忆，并且在处理长输入序列时会遇到困难。IBM 研究人员正在开发无需重新训练模型就能提升内存容量的创新方法，这一过程既昂贵又耗时。

一种值得注意的方法是 CAMELoT（Consolidated Associative Memory Enhanced Long Transformer），它引入了一个关联记忆模块到预训练的 LLMs 中，以处理更长的上下文。另一种方法 Larimar 采用了一个可以快速更新的内存模块，以添加或遗忘事实。两种方法都旨在提高内容生成的效率和准确性。

自注意力机制的挑战

LLMs 面临的一个重大挑战是变压器架构中固有的自注意机制，这导致了随着内容量增加而扩大了的低效。这种低效带来了高内存和计算成本。IBM 研究员 Rogerio Feris 指出，随着输入长度的增加，自注意机制的计算成本呈二次方增长。这是内存扩展可以产生重大影响的一个关键领域。

CAMELoT 和 Larimar 的好处

CAMELoT 利用了神经科学中的三个特性：合并性、新颖性和近时性。这些特性帮助模型通过压缩信息、识别新概念和替换过时的内存槽来有效管理记忆。结合预训练的 Llama 2-7b 模型，CAMELoT 将困惑度（perplexity）降低了多达 30%，表明预测准确性得到了提高。

另一方面，Larimar 在 LLMs 中增加了一个可适应的外部情景记忆。这帮助解决了训练数据泄露和记忆化问题，使模型能够在推理期间迅速重写和忘记上下文记忆。实验表明，Larimar 可以在推理期间准确地进行一次性更新 LLM 内存，从而减少幻觉并防止敏感信息泄露。

未来前景和应用

IBM 研究院继续探索内存扩展在 LLMs 中的潜力。Larimar 架构在国际机器学习会议（ICML）上进行了展示，并在改善上下文长度泛化和减少幻觉方面显示出很大潜力。团队还在研究内存模型如何增强 LLMs 的推理和计划能力。

总体而言，像 CAMELoT 和 Larimar 这样的内存扩展技术为当前 LLMs 的限制提供了有前途的解决方案，有可能导致更高效、更准确和更具适应性的 AI 模型。

Image source: Shutterstock

增强大语言模型：内存扩展显示出巨大潜力

内存扩展的创新方法

自注意力机制的挑战

CAMELoT 和 Larimar 的好处

未来前景和应用

Premium Sponsors

Flash News