Cloudflare将过滤为AI公司服务的网络爬虫

该托管平台希望网站对AI公司如何使用其内容有更多控制权。Samuel Boivin/Shutterstock Cloudflare宣布计划自动阻止混用的网络爬虫，这些爬虫同时为搜索引擎索引网站并充当AI代理和训练师。该公司之前提供了选择性功能，使客户能够防止爬虫抓取他们网站的内容用于AI聊天机器人，但现在Cloudflare的立场默认变得更加防御性。Cloudflare首席执行官兼创始人Matthew Prince在一份声明中表示：“现在互联网上大多数流量都是非人类的，我们必须进一步并快速行动，以便能够出现可持续的生态系统。”他补充道：“Cloudflare的新工具和合作伙伴关系为网站所有者提供了更多的可见性和商业机会，也利于那些拥有明显和透明意图的AI公司。我们希望我们所提议的默认变更能鼓励混用爬虫将搜索与代理使用和训练分开。”网络流量过去表明人们在查看网站的广告或支付其订阅，但AI模型的普及使得用户可以代表他们访问网站以提取最新信息，从而颠覆了这一系统。Cloudflare的新方法试图以对AI公司和网站运营者公平的方式重新平衡这种关系。自2026年9月15日起，新客户和现有Cloudflare用户的新网站将默认“允许搜索，但阻止培训和代理使用带有广告的页面。”默认情况下，不给网站所有者选择其网站是否用于AI的混用爬虫也将在带有广告的页面上被阻止。根据该公司，拥有免费账户的用户也将在9月15日截止日期之前选择退出，否则将切换到这些默认设置。作为这些变更的一部分，Cloudflare还发布了其在2025年推出的按爬取付费功能的新版本，该功能允许网站默认阻止AI网络爬虫，除非公司支付费用来抓取其内容。该功能现在被称为按使用付费，而不是根据网页是否被爬取来支付费用，Cloudflare表示，网站所有者将根据其内容出现在AI聊天机器人回答中时获得报酬。公告中仅提及与Ceramic.AI和You.com的合作，但Cloudflare可能希望其他AI公司也加入，因为其客户选择加入。除了努力使网站和AI公司之间的关系更加公平外，正如TechCrunch所指出的，Cloudflare似乎也在间接瞄准谷歌。该公司的公告提到，“最大的搜索引擎拥有大约2倍于领先AI公司的信息，因为它们使客户在不被用于AI的情况下保持可发现性变得困难。”谷歌的主要爬虫Googlebot同时为公司的各种搜索引擎索引网站并收集信息，以训练Gemini并为AI功能提供支持，如AI概述和AI模式。谷歌让网站选择加入一个名为Google-Extended的单独爬虫，这个爬虫只为传统搜索结果抓取网站，但如果出版商希望被包含在AI模式结果中，但又不希望其内容用于训练谷歌的模型，他们就没有选择。Cloudflare的新政策试图迫使谷歌和其他拥有混用爬虫的公司改变其策略。