NVIDIA的NVFP4 KV 缓存革新推理效率

NVIDIA的NVFP4 KV 缓存革新推理效率 - Blockchain.News

在大规模推理优化的重大进展中，NVIDIA引入了NVFP4 KV缓存，这是一种旨在提升Blackwell GPU性能的新型量化格式。据NVIDIA的博客称，这一创新可将KV缓存内存占用减少多达50%，有潜力将上下文预算翻倍，并支持更大批量和更长序列，精度损失不足1%。

了解KV缓存

大型语言模型（LLM）以自回归方式生成标记，依赖以前的标记提供上下文。然而，这一过程导致计算效率低下，因为模型反复重新计算称为键和值张量的注意力投影。KV缓存通过存储这些张量来解决此问题，减少冗余计算。然而，随着缓存的填充，较旧的上下文部分可能会被逐出，需要重新计算。

NVFP4代表了KV缓存优化的突破，将缓存从16位量化到4位。这不仅削减了内存占用，还减轻了解码阶段的内存带宽压力。NVFP4 KV缓存允许更多的上下文保留在设备上，提高了缓存命中率，减少了推理期间的重新计算需求。

量化过程包括在进行注意力和上下文矩阵操作之前，将值从NVFP4反量化到FP8。新的标记的键和值向量随后被量化为NVFP4并附加到KV缓存中，从而在不显著损失精度的情况下简化了性能。

NVIDIA的NVFP4 KV缓存通过提高缓存命中率和减少推理过程中的延迟显著提升性能。测试显示，与FP8 KV缓存相比，首次标记延迟减少最高可达3倍。尽管量化激进，NVFP4维持了高准确性，与现代基准的FP16和FP8基线相比，偏差不足1%。

该格式还与MXFP4相比有更好表现，由于其细粒度的块缩放和卓越的E4M3 FP8缩放因子，提供更高的准确性。这确保了在反量化过程中较低的量化误差，维护了模型的端到端能力。

随着NVIDIA继续增强其推理堆栈，NVFP4 KV缓存代表了软硬件共同设计的重要一步。未来的发展可能包括与NVIDIA Dynamo的KV感知路由和卸载集成，并利用NVLink结构进行多代理推理。这些进步有望在不牺牲准确性的情况下支持更大模型、更长序列和更高并发性。

Image source: Shutterstock