解码AI性能：分析NVIDIA RTX电脑上的TOPS和Tokens

解码AI性能：分析NVIDIA RTX电脑上的TOPS和Tokens - Blockchain.News

AI个人电脑的时代已经到来，由NVIDIA RTX和GeForce RTX技术驱动。这一转变带来了评估AI加速任务的新方式，引入了一些在选择台式机和笔记本电脑时可能难以理解的新指标，根据NVIDIA博客。

TOPS的出现

第一个基准是TOPS，或每秒万亿次操作。这一指标类似于引擎的马力评分，数值越高性能越好。例如，微软的Copilot+ PC系列包含的神经处理单元（NPUs）可以执行超过40 TOPS，对于轻量AI辅助任务来说已经足够。然而，NVIDIA RTX和GeForce RTX GPU提供了前所未有的性能，例如GeForce RTX 4090 GPU可提供超过1,300 TOPS的性能，这对于要求苛刻的生成式AI任务（如AI辅助的数字内容创作和大语言模型（LLMs）的查询）来说是必不可少的。

投入Tokens来使用

LLM性能用模型生成的tokens数量来衡量。Tokens可以是单词、标点符号或空白。AI性能可以用“每秒tokens（tokens per second）”来量化。另一个关键因素是批处理大小，即同时处理的输入数量。更大的批处理大小可以提高性能，但需要更多内存。RTX GPU在这方面表现出色，因为它们拥有大量的视频随机存取存储器（VRAM）、Tensor Cores和TensorRT-LLM软件。

GeForce RTX GPU提供高达24GB的高速VRAM，而NVIDIA RTX GPU则高达48GB，这使得更大批处理大小和更大模型成为可能。专用AI加速器Tensor Cores显著加快了深度学习和生成式AI模型所需的操作。使用NVIDIA TensorRT软件开发工具包（SDK）的应用程序可以在超过1亿台由RTX GPU驱动的Windows电脑和工作站上解锁最大性能。

文本到图像，比以往更快

测量图像生成速度是评估性能的另一种方法。Stable Diffusion是一种流行的基于图像的AI模型，允许用户将文本描述转换为复杂的视觉表示。使用RTX GPU，这些结果可以比在CPU或NPU上生成得更快。使用Automatic1111接口的TensorRT扩展可以进一步增强性能，使RTX用户能够利用SDXL Base检查点将提示生成的图像速度提高2倍。

另一种流行的Stable Diffusion接口ComfyUI最近添加了TensorRT加速，允许RTX用户将提示生成的图像速度提高60%，并将这些图像转换为视频的速度提高70%。新的UL Procyon AI图像生成基准测试表明，与最快的非TensorRT实现相比，GeForce RTX 4080 SUPER GPU的速度提高了50%。

TensorRT加速功能即将应用于Stable Diffusion 3，Stability AI的新文本到图像模型，性能将提高50%。TensorRT-模型优化器进一步加快了性能，速度提高70%，内存消耗减少50%。

这些进步的真正考验在于实际使用案例中。用户可以通过调整提示在RTX GPU上显著更快地精细化图像生成，每次迭代需要几秒钟，而在其他系统上可能需要几分钟。这种速度和安全性是通过在RTX驱动的电脑或工作站上本地运行实现的。

结果已经揭晓并开源

背后的AI研究人员Jan.ai最近将TensorRT-LLM集成到他们的本地聊天机器人应用程序中，并对这些优化进行了基准测试。他们发现TensorRT在相同硬件上“比llama.cpp快30-70%”，并且在连续处理运行中更加高效。该团队的方法是开源的，供其他人自行测量生成式AI性能。

从游戏到生成式AI，速度至关重要。TOPS、每秒图像（images per second）、每秒tokens（tokens per second）和批处理大小都是确定性能的重要指标。

Image source: Shutterstock

解码AI性能：分析NVIDIA RTX电脑上的TOPS和Tokens

TOPS的出现

投入Tokens来使用

文本到图像，比以往更快

结果已经揭晓并开源

Premium Sponsors

Flash News