Mistral OCR 4

今天，我们发布了 Mistral OCR 4，具有边界框、块分类和提取文本的内嵌置信分数。该模型支持 170 种语言，涵盖 10 个语言组，能够在单个容器中运行，以完成完全自托管的部署，并作为企业搜索、RAG 和领域特定检索管道的摄取组件。OCR 4 是一个小型、专注的模型，本文涵盖了新功能、在公共和内部基准测试中的表现、已知基准的限制以及关于何时使用模型 API 相较于 Document AI 的指导。亮点突破性表现。独立评审员更喜欢 OCR 4 而不是测试的每个领先的 OCR 和文档 AI 系统，胜率平均达到 72%，并在 OlmOCRBench 上获得最高整体得分（85.20）。有关方法论和已知评分限制，请参见下面的基准测试。分割而不仅仅是文本。除了提取的文本之外，OCR 4 还返回边界框、类型块分类（标题、表格、公式、签名等）和内嵌置信分数。边界框是我们请求最多的功能，可为上下文高亮和可靠的数据管道定位文本。与此同时，块类型和置信分数驱动源基础引用、涂黑和人工参与验证。集成了 Mistral Search Toolkit（公开预览）。OCR 4 是搜索工具包的摄取组件，Mistral 的开源可组合搜索框架，在 AI Now 峰会上宣布。其结构化输出为工具包的摄取、检索和评估工作流提供引用准备输入，适用于 RAG 和企业搜索。多语言覆盖。支持 170 种语言，涵盖 10 个语言组，在一些竞争系统退化的稀有和低资源语言上有可衡量的提升。在您自己的基础设施上运行。OCR 4 足够紧凑，可以在单个容器中部署，保持文档数据在您的环境中，以满足驻留、主权和合规要求，同时支持高成本效益和高吞吐量的批处理。自管理部署可供企业客户使用。概述 Mistral OCR 4 从广泛的文档中提取和构建内容。以前的版本专注于将页面转换为干净的文本和表格，而 OCR 4 返回文档的结构化表示。每个块都有定位边界框，并根据类型进行分类，并生成每页和每个单词的内嵌置信分数。因此，下游系统不仅可以访问文档所表达的内容，还可以访问每个元素的位置、它的角色及模型对每个区域的置信度。这种结构支持几种下游工作负载：RAG 的语义分块：干净、分类的块成为更好的检索单元。代理的结构原语：代理从阅读文档转向对文档进行操作（表单填写、发票处理、合规检查）。连接器的结构化内容：用于摄取和索引管道的一致、类型化输出。OCR 4 接受常见的企业格式，包括 PDF、DOC、PPT 和 OpenDocument，并支持 170 种语言，涵盖 10 个语言组，包括许多系统处理不佳的稀有和低资源语言。作为可以在单个容器中部署的紧凑模型，适合于成本敏感和高容量部署。它可以完全自托管运行，允许有数据主权要求的组织将文档数据保留在自己的基础设施中。开发人员通过 API 集成该模型，团队可以在 Mistral Studio 中使用 Document AI 进行无代码的应用级路径以访问相同引擎。通过 API 的 Mistral OCR 4 的定价为每 1,000 页 4 美元，Batch-API 提供 50% 的折扣，将成本降低至每 1,000 页 2 美元。Document AI 的定价为每 1,000 页 5 美元。基准测试 “我们将 Mistral OCR 4 与领先的代理文档解析器进行基准测试，涉及一个图表和数字密集的金融 QA 数据集，并以大约降低 8 倍的成本和 17 倍的延迟达到同等准确性。在大规模的生产使用案例中，这一差距迅速累积。” - Aidan Donohue，AI 工程师，Rogo 为了评估 OCR 4，我们将其与领先的 AI 原生 OCR 模型、前沿通用模型、企业文档服务和我们自己的 Mistral OCR 3 进行了比较。人工偏好评估自动基准测试带有上述评分特征，因此我们通过对选择的文件进行头对头的人工评估来补充它们，以反映实际使用情况。我们收集了 600 多份来自 12 多种语言的文档，来自第三方供应商，以代表真实行业用例，并要求独立评审员盲目排名每个竞争者的输出与 OCR 4 的输出逐个文档进行比较。评审员在测试的所有系统中大多数文档中更喜欢 OCR 4。由于这些是对真实文档的人工判断，而非与固定参考的字符串比较，因此它们避免了许多