Character.ai 推出大规模预训练的高效技术

Character.ai 推出大规模预训练的高效技术 - Blockchain.News

Character.ai 是 AI 领域的知名参与者，最近分享了其优化大规模 transformer 训练的初期努力。据 Character.AI Blog，该公司已将重点转向开源模型基础，最初探索了各种技术以提升训练效率和速度。

梯度压缩：Squinch

Character.ai 的一项重要创新是梯度压缩算法 Squinch。这种 6 位压缩技术由联合创始人 Noam Shazeer 开发，旨在显著减少分布式训练期间的通信带宽，同时保持模型的准确性。该算法有效地将梯度压缩为每个元素 6 位，优化了训练集群的带宽使用。

Character.ai 还开发了 Attention Z-Reg，这是一种应用于注意力 logits 的正则化方法，以确保数值稳定性。该技术有助于保持 bfloat16 表示的精度，对于优化大型模型的训练至关重要。

动态钳位是另一个用于增强量化稳定性的技术。它通过根据输入权重的均方根动态计算钳位范围来防止小的激活值崩溃为零。此方法通过减少量化误差提高了训练的稳定性。

引入 Visibility Mask 这一工具用于在训练和推理期间表示元词间关系，提高了训练系统的效率。此 API 帮助管理批次内的注意力范围，支持树状文档关系和双向注意力。

在模型蒸馏领域，Character.ai 利用 Gumbel Softmax 技术来降低存储和带宽成本，同时保持教师模型的保真度。此方法涉及对教师模型输出的子集进行采样，保留软目标值以便更高效地进行学生模型训练。

即使公司将重点转向开源模型的训练后强化学习，Character.ai 在优化预训练方面的努力也为更高效的 AI 模型训练铺平了道路。这些技术，包括 Squinch 和 Gumbel Softmax，突显了公司在推进 AI 效率和可扩展性方面的承诺。

Image source: Shutterstock