NVIDIA 推出 Nemotron-CC：用于 LLM 预训练的大规模数据集

NEW

NVIDIA 推出 Nemotron-CC：用于 LLM 预训练的大规模数据集 - Blockchain.News

NVIDIA 宣布发布 Nemotron-CC，这是一项突破性的 6.3 万亿标记的英语语言数据集，旨在推动大型语言模型（LLM）预训练的进步。根据 NVIDIA 的说法，该数据集来源于 Common Crawl，并通过创新的数据整理技术，包括使用 1.9 万亿合成生成数据的标记，提升 LLM 的准确性和效率。

加强 LLM 预训练

NVIDIA 的举措解决了 LLM 训练中的一个关键需求，即预训练数据集的质量起着至关重要的作用。尽管最近的模型如 Meta 的 Llama 系列基于包含多达 15 万亿标记的数据集，但这些数据集的具体组成仍大多未公开。Nemotron-CC 旨在通过提供一个高质量的数据集来填补这一空白，该数据集能够支持短期和长期标记训练。

传统数据集通常牺牲多达 90% 的数据以提高基准精度，这限制了它们在广泛训练中的实用性。然而，Nemotron-CC 展示了如何通过先进方法（如分类器集成和合成数据重组）将 Common Crawl 数据转变为一个优质数据集，甚至超越 Llama 3.1 8B 模型。

显著结果

Nemotron-CC 在各项基准测试中的表现证明了其有效性。当为 8B 参数模型训练一万亿标记时，高质量子集 Nemotron-CC-HQ 超越了像 DCLM 这样的领先数据集，使 MMLU 分数提高了 5.6 分。此外，完整的 6.3 万亿标记数据集在 MMLU 上与 DCLM 匹敌，同时提供四倍以上的独特真实标记。这使得长标记训练更加有效，Nemotron-CC 训练的模型在多项指标上超过了 Llama 3.1 8B，包括 MMLU 分数增加 5 分和 ARC-Challenge 分数上升 3.1 分。

创新的数据整理技术

Nemotron-CC 的开发涉及几个关键见解。通过集成不同的基于模型的分类器，NVIDIA 能够选择更广泛的高质量标记。此外，重组技术能够减少噪声和错误，生成多样化且有价值的数据变体。禁用传统的启发式过滤器的决策进一步提高了数据集的质量，而不损害准确性。

NVIDIA 利用其 NeMo Curator 工具从 Common Crawl 中提取和精炼数据，并对语言、去重和质量分类进行过滤。此过程辅以合成数据生成，为数据集贡献了大约两万亿的标记。

未来前景

Nemotron-CC 被视为一个重要的资源，用于在各种标记范围内进行前沿 LLM 的预训练。NVIDIA 计划通过发布更多专门的数据集来扩展其产品，包括专注于特定领域如数学的数据集，以进一步增强 LLM 的能力。

Image source: Shutterstock

Flash News

Ethereum Whale Executes $7.32M Short Trade After $301K Long Profit: Key ETH Price Action for Traders

4/29/2025 2:32:27 PM

Bitcoin and Ethereum ETF Inflows Surge: BlackRock iShares Adds 10,249 BTC and 37,537 ETH in One Day

4/29/2025 2:23:25 PM

Grant Cardone Capital Announces Plan to Buy 1,000 Bitcoin Using Real Estate Profits: Bullish Signal for BTC Price

4/29/2025 1:19:13 PM

BTC Price Action: Short Float Surges as Bids Pulled After Bounce – Key Signals for Crypto Traders

4/29/2025 1:18:14 PM

CTZN Vault Fair Launch on Meteora: Trading Analysis, AI Technology & Market Momentum

4/29/2025 1:13:38 PM

Email us at info@blockchain.news