Mistral OCR 4
今天,我们发布了 Mistral OCR 4,具有边界框、块分类和提取文本的内嵌置信分数。该模型支持 170 种语言,涵盖 10 个语言组,能够在单个容器中运行,以完成完全自托管的部署,并作为企业搜索、RAG 和领域特定检索管道的摄取组件。OCR 4 是一个小型、专注的模型,本文涵盖了新功能、在公共和内部基准测试中的表现、已知基准的限制以及关于何时使用模型 API 相较于 Document AI 的指导。亮点突破性表现。独立评审员更喜欢 OCR 4 而不是测试的每个领先的 OCR 和文档 AI 系统,胜率平均达到 72%,并在 OlmOCRBench 上获得最高整体得分(85.20)。有关方法论和已知评分限制,请参见下面的基准测试。分割而不仅仅是文本。除了提取的文本之外,OCR 4 还返回边界框、类型块分类(标题、表格、公式、签名等)和内嵌置信分数。边界框是我们请求最多的功能,可为上下文高亮和可靠的数据管道定位文本。与此同时,块类型和置信分数驱动源基础引用、涂黑和人工参与验证。集成了 Mistral Search Toolkit(公开预览)。OCR 4 是搜索工具包的摄取组件,Mistral 的开源可组合搜索框架,在 AI Now 峰会上宣布。其结构化输出为工具包的摄取、检索和评估工作流提供引用准备输入,适用于 RAG 和企业搜索。多语言覆盖。支持 170 种语言,涵盖 10 个语言组,在一些竞争系统退化的稀有和低资源语言上有可衡量的提升。在您自己的基础设施上运行。OCR 4 足够紧凑,可以在单个容器中部署,保持文档数据在您的环境中,以满足驻留、主权和合规要求,同时支持高成本效益和高吞吐量的批处理。自管理部署可供企业客户使用。概述 Mistral OCR 4 从广泛的文档中提取和构建内容。以前的版本专注于将页面转换为干净的文本和表格,而 OCR 4 返回文档的结构化表示。每个块都有定位边界框,并根据类型进行分类,并生成每页和每个单词的内嵌置信分数。因此,下游系统不仅可以访问文档所表达的内容,还可以访问每个元素的位置、它的角色及模型对每个区域的置信度。这种结构支持几种下游工作负载:RAG 的语义分块:干净、分类的块成为更好的检索单元。代理的结构原语:代理从阅读文档转向对文档进行操作(表单填写、发票处理、合规检查)。连接器的结构化内容:用于摄取和索引管道的一致、类型化输出。OCR 4 接受常见的企业格式,包括 PDF、DOC、PPT 和 OpenDocument,并支持 170 种语言,涵盖 10 个语言组,包括许多系统处理不佳的稀有和低资源语言。作为可以在单个容器中部署的紧凑模型,适合于成本敏感和高容量部署。它可以完全自托管运行,允许有数据主权要求的组织将文档数据保留在自己的基础设施中。开发人员通过 API 集成该模型,团队可以在 Mistral Studio 中使用 Document AI 进行无代码的应用级路径以访问相同引擎。通过 API 的 Mistral OCR 4 的定价为每 1,000 页 4 美元,Batch-API 提供 50% 的折扣,将成本降低至每 1,000 页 2 美元。Document AI 的定价为每 1,000 页 5 美元。基准测试 “我们将 Mistral OCR 4 与领先的代理文档解析器进行基准测试,涉及一个图表和数字密集的金融 QA 数据集,并以大约降低 8 倍的成本和 17 倍的延迟达到同等准确性。在大规模的生产使用案例中,这一差距迅速累积。” - Aidan Donohue,AI 工程师,Rogo 为了评估 OCR 4,我们将其与领先的 AI 原生 OCR 模型、前沿通用模型、企业文档服务和我们自己的 Mistral OCR 3 进行了比较。人工偏好评估自动基准测试带有上述评分特征,因此我们通过对选择的文件进行头对头的人工评估来补充它们,以反映实际使用情况。我们收集了 600 多份来自 12 多种语言的文档,来自第三方供应商,以代表真实行业用例,并要求独立评审员盲目排名每个竞争者的输出与 OCR 4 的输出逐个文档进行比较。评审员在测试的所有系统中大多数文档中更喜欢 OCR 4。由于这些是对真实文档的人工判断,而非与固定参考的字符串比较,因此它们避免了许多
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡