Search Results for "语言模型"
Llama 3.1 405B 利用 NVIDIA H200 GPU 和 NVLink 实现 1.5 倍吞吐量提升
NVIDIA 最新的并行技术进步,通过使用 NVIDIA H200 Tensor Core GPU 和 NVLink Switch,将 Llama 3.1 405B 的吞吐量提升了 1.5 倍,提高了 AI 推理性能。
使用 NVIDIA Triton 和 TensorRT-LLM 在 Kubernetes 上增强大型语言模型
探索 NVIDIA 使用 Triton 和 TensorRT-LLM 优化大型语言模型的方法,同时在 Kubernetes 环境中高效地部署和扩展这些模型。