NVIDIA 宣布发布 Nemotron-CC,这是一项突破性的 6.3 万亿标记的英语语言数据集,旨在推动大型语言模型(LLM)预训练的进步。根据 NVIDIA 的说法,该数据集来源于 Common Crawl,并通过创新的数据整理技术,包括使用 1.9 万亿合成生成数据的标记,提升 LLM 的准确性和效率。
加强 LLM 预训练
NVIDIA 的举措解决了 LLM 训练中的一个关键需求,即预训练数据集的质量起着至关重要的作用。尽管最近的模型如 Meta 的 Llama 系列基于包含多达 15 万亿标记的数据集,但这些数据集的具体组成仍大多未公开。Nemotron-CC 旨在通过提供一个高质量的数据集来填补这一空白,该数据集能够支持短期和长期标记训练。
传统数据集通常牺牲多达 90% 的数据以提高基准精度,这限制了它们在广泛训练中的实用性。然而,Nemotron-CC 展示了如何通过先进方法(如分类器集成和合成数据重组)将 Common Crawl 数据转变为一个优质数据集,甚至超越 Llama 3.1 8B 模型。
显著结果
Nemotron-CC 在各项基准测试中的表现证明了其有效性。当为 8B 参数模型训练一万亿标记时,高质量子集 Nemotron-CC-HQ 超越了像 DCLM 这样的领先数据集,使 MMLU 分数提高了 5.6 分。此外,完整的 6.3 万亿标记数据集在 MMLU 上与 DCLM 匹敌,同时提供四倍以上的独特真实标记。这使得长标记训练更加有效,Nemotron-CC 训练的模型在多项指标上超过了 Llama 3.1 8B,包括 MMLU 分数增加 5 分和 ARC-Challenge 分数上升 3.1 分。
创新的数据整理技术
Nemotron-CC 的开发涉及几个关键见解。通过集成不同的基于模型的分类器,NVIDIA 能够选择更广泛的高质量标记。此外,重组技术能够减少噪声和错误,生成多样化且有价值的数据变体。禁用传统的启发式过滤器的决策进一步提高了数据集的质量,而不损害准确性。
NVIDIA 利用其 NeMo Curator 工具从 Common Crawl 中提取和精炼数据,并对语言、去重和质量分类进行过滤。此过程辅以合成数据生成,为数据集贡献了大约两万亿的标记。
未来前景
Nemotron-CC 被视为一个重要的资源,用于在各种标记范围内进行前沿 LLM 的预训练。NVIDIA 计划通过发布更多专门的数据集来扩展其产品,包括专注于特定领域如数学的数据集,以进一步增强 LLM 的能力。
Image source: Shutterstock