Mistral AI 推出 Pixtral 12B：颠覆性的多模态模型

Mistral AI 推出 Pixtral 12B：颠覆性的多模态模型 - Blockchain.News

Mistral AI 正式推出了 Pixtral 12B，这是公司首次推出的多模态模型，设计用于无缝处理文本和图像数据。根据Mistral AI介绍，该模型在 Apache 2.0 许可证下发布。

Pixtral 12B 的主要特性

Pixtral 12B 因其本机多模态能力而脱颖而出，使用交错的图像和文本数据进行训练。该模型采用了一个新的 400M 参数的视觉编码器和一个基于 Mistral Nemo 的 12B 参数的多模态解码器。该架构使其支持可变图像大小和长宽比，并在其长达 128K 标记的长上下文窗口中处理多张图像。

在性能方面，Pixtral 12B 在多模态任务中表现出色，并在仅文本基准测试中保持最先进的性能。它在 MMMU 推理基准测试中获得了 52.5% 的得分，超越了几款更大的模型。

性能和评估

Pixtral 12B 被设计为 Mistral Nemo 12B 的即插即用替代品，在不损失文本功能（如指令跟随、编码和数学）能力的情况下，提供一流的多模态推理性能。该模型使用一致的评估工具在各种数据集上进行评估，并优于 Claude 3 Haiku 等开放和闭合模型。值得注意的是，Pixtral 在多模态基准测试中甚至匹配或超过了如 LLaVa OneVision 72B 等更大型的模型。

在指令跟随方面，Pixtral 特别出色，在相对于最近的开源模型的文本 IF-Eval 和 MT-Bench 中表现出 20% 的相对提升。它还在多模态指令跟随基准测试中表现出色，优于 Qwen2-VL 7B 和 Phi-3.5 Vision 等模型。

架构和能力

Pixtral 12B 的架构设计旨在优化速度和性能。视觉编码器以其原生分辨率和长宽比对图像进行标记，将每个 16x16 街区的图像转换为图像标记。然后将这些标记展平以创建序列，并在行间和图像末尾添加 [IMG BREAK] 和 [IMG END] 标记。这允许模型准确理解复杂的图表和文档，同时为较小图像提供快速推理速度。

Pixtral 的最终架构包括两个组件：视觉编码器和多模态变压器解码器。该模型被训练在交错的图像和文本数据上预测下一个文本标记，从而允许其在 128K 标记的大上下文窗口中处理任意大小的图像。

实际应用

Pixtral 12B 在各种实际应用中表现出色，包括对复杂图形的推理、图表理解和多图像指令跟随。例如，它可以将来自多个表格的信息合并为一个 Markdown 表格，或根据图像提示生成 HTML 代码来创建网站。

如何访问 Pixtral

用户可以通过 Le Chat（Mistral AI 的对话聊天界面）或通过 La Plateforme（允许通过 API 调用进行集成）轻松试用 Pixtral。详细文档对于那些有兴趣在其应用中利用 Pixtral 能力的人来说是可用的。

对于那些更喜欢本地运行 Pixtral 的用户，可以通过 mistral-inference 库或 vLLM 库访问该模型，这些库提供更高的服务吞吐量。详细的设置和使用说明在文档中提供。

Image source: Shutterstock