Cloudflare 的新政策迫使人工智能公司为出版商的内容付费

Cloudflare 刚刚给人工智能行业发出了一个新截止日期，要求将用于传统搜索目的（如 Google 搜索）的网络爬虫与用于人工智能代理和训练的爬虫分开。从 2026 年 9 月 15 日起，Cloudflare 的默认设置将封锁任何包含广告的页面上的“混合使用”爬虫，该公司在周三宣布。这意味着，混合搜索、代理使用和训练的爬虫将被默认阻止从这些网站抓取内容，除非网站所有者调整其设置。公司表示，对默认设置的更改将适用于新的 Cloudflare 客户、新的现有客户设置的网站以及所有现有的免费客户。此举可能会影响人工智能模型提供者获取用于训练目的的网页内容的方式，并帮助提供其代理服务。Cloudflare 指出，大多数网站所有者希望其内容能够通过搜索和人工智能服务被发现，但他们希望保护自己的知识产权，避免其内容被免费获取。Cloudflare 特别提到“世界上最大的搜索引擎”（明显指的是 Google）拥有比其他人工智能公司多“2 倍的资讯”，因为这个搜索巨头使客户更难在不被用作人工智能的情况下保持可发现性。Google 过去对此泛化的内容提出了反对意见，指出它提供了一种名为 Google Extended 的机器人，让网站所有者可以选择不将其内容用作培训和人工智能产品及服务（如 Gemini Apps 和 Vertex API）使用。其使用不会影响网站在 Google 搜索中的展示。然而，这家科技巨头的旗舰 Googlebot 爬虫是为了搜索，包括具有 AI 概述和 AI 模式等人工智能功能。Cloudflare 联合创始人兼 CEO 马修·普林斯在宣布此消息时表示：“现在互联网流量的大部分是非人类的，我们必须更进一步，并更快行动，以便出现可持续的生态系统。”他提到，最近的里程碑是机器人流量首次超过了人类流量。这个变化原本预计要到明年才会发生。普林斯表示：“Cloudflare 的新工具和合作伙伴关系为网站所有者提供了更多的可视性和商业机会，也对具有明确和透明意图的人工智能公司有利。我们希望我们提议的默认更改能够鼓励混合使用爬虫分开搜索、代理使用和训练。”虽然 Cloudflare 提供了多种产品来帮助用户启动自己的人工智能系统，但该公司也推出了一系列工具，在人工智能时代赋予出版商对其内容的更多控制权。近年来，Cloudflare 推出了与 AI 机器人作斗争的工具，包括一个市场，允许网站向 AI 机器人收取抓取费用，称为按抓取付费（Pay Per Crawl）。该方式现在也在演变为“按使用付费”（Pay Per Use），该公司表示，这将允许出版商在其内容创造价值时向人工智能公司收费，而不仅仅是在内容被抓取时。这个变化还可以帮助节省出版商的带宽和计算资源，因为 Cloudflare 数据显示，超过 50% 的 AI 爬虫抓取流量用于重新抓取未更改的页面。为了落实这一点，Cloudflare 最初与两个合作伙伴 Ceramic.ai 和 You.com 合作。当出版商选择加入时，他们在其内容出现在 Ceramic 的 AI 搜索结果中或 You.com 访问其高质量内容时获利。Cloudflare 表示，其他人工智能公司可以根据他们的运作方式自定义该模型。通过我们的文章中的链接购买时，我们可能会获得少量佣金。这不会影响我们的编辑独立性。Sarah 自 2011 年 8 月以来一直在 TechCrunch 担任记者。她在加入公司之前，曾在 ReadWriteWeb 工作超过三年。在成为记者之前，Sarah 曾在多个行业（包括银行、零售和软件）从事 IT 工作。您可以通过电子邮件 sarahp@techcrunch.com 或通过加密消息方式在 Signal 上与 Sarah 联系或验证其 outreach。查看个人简介