NVIDIA的NVFP4 KV 缓存革新推理效率 - Blockchain.News

NVIDIA的NVFP4 KV 缓存革新推理效率

realtime news Dec 08, 2025 17:40

NVIDIA推出NVFP4 KV缓存,通过减少内存占用和计算成本优化推理,在Blackwell GPU上的性能提升,同时几乎不损失精度。

NVIDIA的NVFP4 KV 缓存革新推理效率

在大规模推理优化的重大进展中,NVIDIA引入了NVFP4 KV缓存,这是一种旨在提升Blackwell GPU性能的新型量化格式。据NVIDIA的博客称,这一创新可将KV缓存内存占用减少多达50%,有潜力将上下文预算翻倍,并支持更大批量和更长序列,精度损失不足1%。

了解KV缓存

大型语言模型(LLM)以自回归方式生成标记,依赖以前的标记提供上下文。然而,这一过程导致计算效率低下,因为模型反复重新计算称为键和值张量的注意力投影。KV缓存通过存储这些张量来解决此问题,减少冗余计算。然而,随着缓存的填充,较旧的上下文部分可能会被逐出,需要重新计算。

NVFP4:提升KV缓存效率

NVFP4代表了KV缓存优化的突破,将缓存从16位量化到4位。这不仅削减了内存占用,还减轻了解码阶段的内存带宽压力。NVFP4 KV缓存允许更多的上下文保留在设备上,提高了缓存命中率,减少了推理期间的重新计算需求。

量化过程包括在进行注意力和上下文矩阵操作之前,将值从NVFP4反量化到FP8。新的标记的键和值向量随后被量化为NVFP4并附加到KV缓存中,从而在不显著损失精度的情况下简化了性能。

性能和准确性影响

NVIDIA的NVFP4 KV缓存通过提高缓存命中率和减少推理过程中的延迟显著提升性能。测试显示,与FP8 KV缓存相比,首次标记延迟减少最高可达3倍。尽管量化激进,NVFP4维持了高准确性,与现代基准的FP16和FP8基线相比,偏差不足1%。

该格式还与MXFP4相比有更好表现,由于其细粒度的块缩放和卓越的E4M3 FP8缩放因子,提供更高的准确性。这确保了在反量化过程中较低的量化误差,维护了模型的端到端能力。

未来前景

随着NVIDIA继续增强其推理堆栈,NVFP4 KV缓存代表了软硬件共同设计的重要一步。未来的发展可能包括与NVIDIA Dynamo的KV感知路由和卸载集成,并利用NVLink结构进行多代理推理。这些进步有望在不牺牲准确性的情况下支持更大模型、更长序列和更高并发性。

Image source: Shutterstock