返回

文章详情

通过将代码转换为图像并让模型进行OCR,Fable成本削减60%

Hacker News2026年7月3日 15:50

通过将庞大的上下文呈现为图像,减少Claude Code的输入令牌——同样的系统提示、工具文档和历史记录,所用令牌的数量仅为一部分。图像的令牌成本是由其像素尺寸固定的,而不是由其内部文本的多少决定的。密集内容(代码、JSON、工具输出)在图像令牌中大约每个包含 ~3.1 个字符,而在真实的Claude Code流量中每个文本令牌大约只有 ~1 个字符。pxpipe是一个本地代理,利用了这一差距:它在请求离开您的计算机之前,将请求中庞大的部分(系统提示、工具文档、较旧的历史记录)重写成紧凑的PNG格式。节省的费用取决于工作负载——pxpipe在令牌密集的内容上表现优异,而对稀疏或较小的请求则保持不变——因此这些是可测量的快照,而不是常量。主要、持久的结果是输入令牌的减少:密集的系统提示、工具文档和历史记录以紧凑的图像形式输入,而不是文本(上面的例子约为25k文本令牌被渲染为约2.7k图像令牌),每个请求都与其自己的计数令牌计数反事实进行比较。美元在此之后——根据当前Fable的挂牌价格,令牌削减的结果大约是 ~59–70% 的端到端账单(压缩请求时大约为 ~72–74%;完整定价计算见FAQ)。但是挂牌价格明天可能会改变,而令牌计数不会变化,因此需要关注的是令牌——而不是美元。通过 ~/.pxpipe/events.jsonl 重现这两个结果。这是模型看到的内容,而不是文本:~48k个字符的系统提示和工具文档(这个代码库自己的README、发现报告和源代码),大约25k令牌作为文本,大约2.7k图像令牌表示该页面。由真实的transformRequest管道生成:空格被最小化,重新排成完整的行,↵标记原始换行,OCR指令横幅也被共同渲染在上面。模型在干净的评估中以100/100的评分读取这种渲染(见基准测试)。Fable 5演示(默认情况下,100/100的读取器):Fable-AB-Demo.mp4 这两个演示在Fable 5上都有两个面板(左侧为普通,右侧为pxpipe)。Fable读取Opus无法识别的内容。Opus拒绝的图像短语计数(见下面的Opus演示):pxpipe臂在39个图像填充文件中精确计数10/10(逐行匹配grep基准),并正确进行多步骤的账本运算(8037 → … → 15,021)。相同的答案,便宜约7倍。两个演示后的会话总计:普通$42.21,上下文96%满(964.5k/1M——距离强制压缩仅一步),而pxpipe $6.06,上下文还有剩余(73.5k/1M)。诚实的警告,在这个片段中可见:pxpipe臂首先回答了计数问题,并需要一个后续推动才能以请求的一行格式打印账本余额;而普通臂在第一次尝试时遵循了格式。在Fable上可解决可读性——单回复格式一致性是剩余的粗糙边缘。Opus 4.8演示(默认情况下禁用Opus):Opus-AB-Demo.mp4 并排比较——普通Claude(左)与pxpipe(右),均在Opus 4.8上(可选;pxpipe针对Fable进行了调整——见上面的Fable片段)。点击图像观看(Google Drive)。演示1——修复一个失败的测试套件:都通过了;仪表板显示pxpipe将请求切出为令牌的一小部分(真实的、服务器测量的上下文/令牌减少)。 演示2——一个大文件上下文(40个文件,约382k令牌)加上一个数学问题和一个“计数此短语”的任务:数学答案(一个小的文本针)在两者上都能读取。短语计数需要读取图像填充——因此在Opus上无法读取pxpipe并诚实地表明不会伪造数字(已记录的有损上限:精确值保持为文本)。普通的请求与逐个文件计数相比则显得缓慢。尝试一下(30秒) npx pxpipe-proxy # 代理127.0.0.1:47821 ANTHROPIC_BASE_URL=http://localhost:47821 claude # 将Claude Code指向它 打开 http://127.0.0.1:47821/ 查看实时仪表板:已节省的令牌、每会话统计、每个文本→图像转换的对比,全局杀开关,以及包括GPT 5.6和GPT 5.5在内的运行时模型信息。其他一切保持不变。响应正常流动;pxpipe只压缩请求(您的上下文增加),而从不压缩模型的输出。最近的转换保持为文本;系统提示、工具文档和较旧的大量历史记录则被图像化。诚实的部分,在依赖之前阅读 它是有损的。pxpipe是一个要点级别,而不是无损存储。在针在稻草堆评估中,在密集成像内容内的确切12字符十六进制字符串在Opus中返回0/15,而在Fable 5中返回13/15,而失败模式是静默混淆:一个似是而非的错误值,而不是错误。您需要以字节形式精确返回的任何内容(ID、哈希、秘密、精确数字)必须保持为文本。最近的转换确实如此;尚未构建专门的逐字风险保护。精确回忆逃生舱。pxpipe仅图像化Fable请求(PXPIPE_MODELS=claude-fable-5),因此任何在非Fable模型上的子代理均以文本形式传递。将需要字节精确值的工作路由到一个——通过 CLAUDE_CODE_SUBAGENT_MODEL=claude-sonnet-4-6 全局路由,或使用代理的前言中模型: sonnet 逐代理路由。它从源处(文件/JSONL)读取,而不是图像化历史。这个覆盖了您特意路由的精确回忆;它不捕获一个si

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡