返回

文章详情

基于阅读者变化的PDF

Hacker News2026年6月12日 16:32

PDF是一种视觉格式。它存储了绘制字形在页面上位置的指令。该规范确实支持标记PDF,这是一种结构树,用于标记标题、段落、列表。一些领域,如政府无障碍要求和企业出版流程,使用它。但大多数你实际遇到的PDF都是未标记的。LaTeX、Chrome的打印为PDF功能以及大多数导出工具都不会生成标记。因此,你得到的只有坐标和字体大小。文本提取器从左到右、从上到下读取绘制指令,并希望结果是好的。这在只有人类作为阅读者时并无关系。但现在大多数PDF最终进入了一个语言模型(LLM)。我们把它们上传到ChatGPT,要求Claude进行总结,经过解析处理。而这些工具正在面对同样的问题:从一种从未包含结构的格式中重建结构。一个LLM看到“项目Alpha 领导了一个由5名工程师组成的团队 以交付”,而不得不猜测标题的结束和句子的继续。有时它能正确猜测,但很多时候不能。我想制作一个PDF,让人类看到格式化后的文档,但机器提取干净的Markdown。相同的文件,没有新的扩展名。仅仅一个.pdf 。工作原理 PDF规范(自PDF 1.4,即2001年)中有一个属性可以让你为标记内容定义替换文本。渲染器忽略它,按照内容流的指示绘制。但支持它的文本提取器返回替换文本而不是可视文本。在我的测试中,PyMuPDF和Poppler都尊重了这一点。对工具和版本的支持各不相同,但主要的开源提取器能够处理它。这是为连体字和那些不自然映射到Unicode的字符而设计的。一个视觉字形“fi”应该提取为两个字符“f”和“i”。但它从未被用于更复杂的内容。我们在文档级别上使用它。我们通过标记内容序列将替换文本附加到内容流,因此支持该属性的提取器返回结构化的Markdown,而不是原始的可视文本。PDF的渲染完全相同,然而文件所生成的输出却取决于谁在阅读它。提取器看到的是什么相同的PDF,相同的视觉外观。以下是PyMuPDF从每个PDF中提取的内容。普通PDF:季度基础设施报告 概述 云迁移提前完成。三个关键服务被迁移到新集群。 关键指标 正常运行时间:99.97% 延迟:平均42毫秒(从68毫秒下降) 成本:每月$12,400(下降34%) 行动项目 在第三季度之前迁移剩余的批处理工作 设置db-west的自动故障转移 审查每个团队的成本分配 智能PDF:# 季度基础设施报告 ## 概述 云迁移提前完成。三个关键服务被迁移到新集群。 ## 关键指标 | 指标 | 值 | |---------|---------------------------| | 正常运行时间 | 99.97% | | 延迟 | 平均42毫秒(从68毫秒下降) | | 成本 | 每月$12,400(下降34%) | ## 行动项目 - 在第三季度之前迁移剩余的批处理工作 - 设置db-west的自动故障转移 - 审查每个团队的成本分配 两个文件在预览、Adobe或任何PDF查看器中看起来相同。然而,普通提取没有层次结构,中途换行的行无法识别,子弹点与段落难以区分,而表格被压缩成行。智能提取则有#标题、Markdown表格、-子弹点和不会在单词中间断开的句子。LLM不必猜测“关键指标”是一个章节标题,或那三行是一个列表,这点是明确的。基准 测试了几个PDF文件,使用我们的工具将其转换为智能PDF,然后使用PyMuPDF的get_text()和https://www.pdf2go.com/分别提取两个版本的文本,均返回Markdown。通过tiktoken(cl100k_base)计算的令牌计数。基准脚本在存储库中。文档 页面 大小 Δ 普通令牌 智能令牌 简历 1 +15.7% 650 668 教科书 417 -8.5% 193,064 195,858 小说章节 38 +4.7% 16,472 15,958 研究论文 18 +2.5% 8,082 7,897 令牌计数大致相同。优势并不在于更少的令牌,而在于相同的令牌现在携带了结构。## 概述和概述费用相同,但一个告诉机器它所看的内容。每个令牌的信息密度上升,而令牌计数并未上升。对于大多数文件,大小的额外开销是个位数百分比。教科书缩小是因为PyMuPDF的保存与garbage=3移除了未使用的PDF对象,这是一种通用优化,非特定于该技术。将智能PDF上传到ChatGPT和Claude。要求他们逐字符复制并粘贴他们看到的确切原始文本。两者都返回Markdown : # , ## , -子弹点。单独来看,这并不是完全决定性的,因为LLM会进行结构推断,像Docling这样的工具也可以通过布局分析从普通PDF中生成Markdown。但是输出与我们的嵌入层完全匹配,包括没有任何布局启发式能够完全复现的格式选择。自适应文档 你最终得到的是一个根据读者自适应的文档。人类打开它,看到他们习惯的格式化PDF。字体、布局、间距...

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡