每个 AI 可见性工具都在对你撒谎

分析 Arber Xhindoli · 2026 年 6 月 30 日 · 11 分钟阅读我是一名经验丰富的软件工程师，我在构建和调试测量系统方面花了足够的时间，知道当仪表板要求你信任一个它无法支持的数字时的感觉。一个新的软件类别现在承诺告诉品牌它们在 ChatGPT、Claude、Gemini、Perplexity 和 Google 的 AI 回答中有多可见。然后，它将这个混乱的系统变成整洁的声明，比如提及率、引用率、声音份额或排名。当一个工具说你在你的类别中排名第四，并且本周上升了两个名次，或者你的可见率为 17%，而一个竞争对手的可见率为 31% 时，我并不认为信号毫无价值；我认为精度是虚构的。这些系统是嘈杂的、个性化的、地理性的、非确定性的，并且不断变化，因此，干净的排行榜数字掩盖了工程师实际想要检查的东西：分布、方法论、方差和原始证据。大多数供应商试图测量一些重要的东西，但机制通常比仪表板承认的要弱。如果一个工具声称在 ChatGPT 或 Claude 中显示“客户看到的内容”，它可能是在抓取消费者应用程序或调用 API。抓取捕获了一个合成会话，而 API 调用使用的表面与客户使用的不同。两者都可以产生有用的方向性信号，特别是当它们揭示了商业提示上的不可见性或地理上的差距时，但在没有展示其工作的情况下，任何一种都不应被出售为一个精确、稳定的真相。前端抓取问题抓取 ChatGPT 或 Claude 前端最初听起来很有说服力。供应商可以如实地说，它打开了应用程序，提出了问题，并记录了产品返回的内容。这更接近真实用户看到的表面。它仍然只测量一个受控的表面。抓取来自一个账户或一个受控账户池。这意味着一个历史状态、一个记忆状态、一个订阅级别、一个地理位置、一个浏览器会话和一个提示。改变其中任何一个，答案可能会改变。一个真实的买家询问“为种子阶段初创公司选择最佳 CRM”，而一个干净的浏览器从数据中心 IP 询问“最佳 CRM 软件”是不同的工具。大规模抓取添加了更多偏见。在任何有意义的数量下，这项工作必须在某个地方运行：云机器、代理路由、管理浏览器、无头会话或其他自动化层。该自动化层可能会渗透到测量中。集中 IP 模式。重复登录。异常的会话节奏。速率限制压力。可能的反滥用处理来自 AI 产品本身。运营者必须做出选择。干净的账户是可重复的，与客户不同。经过时间检验的账户具有历史和较弱的控制。一个进行数千个类别提示查询的基准账户也会创建其自己的个性化轨迹。经过一段时间，该账户的整个生命都是基准流量。这对本地和商业提示最为重要。“我附近最佳的商业屋顶公司”因地点而异。“纽约市最佳 AEO 机构”因地点而异。答案取决于用户的位置、检索系统、账户和当时提取的来源。单个前端答案只是一个实验室样本。相同的提示在不同运行中会改变 AI 可见性排名的最简单辩护是：我们每周询问相同的问题，并计算你是否出现。如果相同的问题有一个稳定的答案，这才有效。相同的话常常会产生不同的答案。即使是零温度 LLM 调用在生产中也无法完全稳定。Thinking Machines Lab 解释了一个技术原因：批处理和内核行为在真实生产负载下可能会有所不同。他们的例子显示，相同的零温度请求会产生多个独特的完成。SparkToro 和 Gumshoe 看到了相同问题的市场版本。他们让志愿者通过 ChatGPT、Claude 和 Google 的 AI 产品进行重复的商业提示。他们的研究发现，品牌推荐在重复运行中变化很大。这是核心测量问题。如果从同一系统的下一抽取可以命名不同的品牌集合，那么“你排名第四”就成为来自分布的一个样本。一个诚实的仪表板应该显示分布情况。消费者应用程序和 API 行为不同一些工具跳过浏览器抓取，转而调用提供者的 API。操作案例很强。API 调用更容易重复，更容易审计，大规模运行成本更低，并且在网络应用程序更改时不太可能出现故障。权衡：API 和消费者应用程序的行为不同。消费者产品可能具有内存、账户个性化、模型路由、网络检索、位置推断、购物模块、本地模块、引用和特定产品的呈现。API 为您提供可编程的模型调用，配合您启用的工具和参数。举例来说，OpenAI 的 API 文档要求您在希望进行有根检索时添加工具，例如网络搜索。谷歌的 Gemini API 具有自己的基础和