先进微设备公司(AMD)宣布对视觉语言模型(VLMs)进行了重大增强,专注于提高这些模型在多种应用中的速度和准确性,据该公司AI团队报道。VLMs 能够整合视觉和文本数据的解读,在从医疗影像到零售分析等行业中起着关键作用。
增强性能的优化技术
AMD的方案涉及几个关键的优化技术。使用混合精度训练和并行处理使 VLMs 能更高效地融合视觉和文本数据。这种改进使得数据处理更加快速和精确,这在需要高精度和快速响应的行业中至关重要。
一个显著的技术是整体预训练,它能同时在图像和文本数据上训练模型。这种方法在模式之间建立了更强的连接,从而提高了准确性和灵活性。AMD的预训练流程加速了这一过程,使没有大规模模型训练资源的客户也能获取。
提高模型的适应性
指令微调是另一个增强点,使模型能够准确地遵循特定提示。这对于诸如零售环境中的客户行为跟踪等目标应用特别有益。AMD的指令微调提高了模型在这些场景中的精确度,为客户提供了定制化的洞察。
上下文学习,这一实时适应性特性,使模型能够根据输入提示调整响应,而无需进一步的微调。这种灵活性在像库存管理等结构化应用中是有利的,模型可以快速根据特定标准对物品进行分类。
解决视觉语言模型的局限性
传统的 VLMs 往往在连续图像处理或视频分析上遇到困难。AMD通过优化其硬件上的 VLM 性能,解决了这些限制,促进了更顺畅的连续输入处理。这一进步对于如医疗影像中监测疾病进展等需要时间上下文理解的应用至关重要。
视频分析的增强
AMD的改善也扩展到视频内容理解,这是标准 VLMs 的一个挑战领域。通过简化处理,AMD使模型能够有效处理视频数据,快速识别和总结关键事件。这一能力在安全应用中特别有用,它减少了分析大量录像片段所需的时间。
为AI工作负载提供全栈解决方案
AMD Instinct™ GPU和开源的AMD ROCm™软件栈形成这些进步的基础,支持从边缘设备到数据中心的广泛AI工作负载。ROCm与主要机器学习框架的兼容性增强了VLMs的部署和定制,促进了持续创新和适应性。
通过量化和混合精度训练等先进技术,AMD缩减了模型尺寸并加速了处理,大幅度缩短了训练时间。这些能力使得AMD的解决方案适合从自动驾驶到离线图像生成等多种性能需求。
欲了解更多信息,请参阅 AMD社区中关于视觉-文本双编码和LLaMA3.2 Vision的资源。
Image source: Shutterstock