Strava在上市前对抓取器宣战

随着模型对数据集需求的不断增加，AI公司已发展成为贪婪的数据实体。为了满足这种需求，许多AI初创企业无视长期以来的互联网惯例——例如尊重robots.txt文件，这些文件向自动爬虫指示网站的哪些部分不可访问——并进行积极的数据抓取。这迫使网站限制对其数据的访问，并在某些情况下与AI公司达成许可证协议。健身及社交跑步公司Strava正在朝这个方向迈进，通过限制其网站的访问并为开发者的访问引入费用。为了阻止抓取，该公司正在增强其网站的安全性，并且现在只允许经过身份验证的用户查看某些数据。此前，用户可以在未登录的情况下查看公共资料和健身俱乐部列表等详细信息。该公司将所有这些数据都放在身份验证后面，以保护其不受未经授权的AI抓取。在API方面，开发者之前可以通过免费分级访问程序开始构建应用——首先申请基本访问权限，然后随着应用的发展请求更多权限。现在，该公司对所有开发者增加了每月11.99美元的固定费用，尽管它指出价格可能因地区而异。Strava表示，其开发者社区从去年的185,000名成员增长到今年的241,000名，公司计划继续支持他们。作为这一计划的一部分，Strava还计划支持模型上下文协议（MCP），这一新兴标准允许AI助手和应用以结构化的方式访问外部数据，使Strava对共享的内容及方式有更多控制。该公司还计划退役一些API端点——特定的数据访问点，让外部应用获取特定数据，比如俱乐部详细信息——以保护用户数据。Strava已在2024年收紧API规则，禁止其用于AI训练，并限制第三方应用显示其他用户的数据。这些变化引起了开发者的反对，他们表示自己的应用将受到严重影响。虽然一些开发者可能接受支付订阅费用，但某些API端点的淘汰仍可能影响依赖这些端点的应用。Strava将在实施这些变更前给予开发者90天的缓冲期。在接受TechCrunch采访时，Strava的首席执行官Michael Martin表示，不受控制的AI抓取可能会成为公共互联网的死亡宣告。“AI公司正在无情地抓取公共网站，鉴于其对训练数据的无尽需求，这正在削弱整体网站性能，”Martin说道。他提到，最近几个月我们经历了多次性能下降，在某些情况下甚至受到了影响。除了抓取公共网站，他们还试图利用我们的API获取对我们数据的访问，忽视API条款。”他指出，Strava拒绝了多家领先AI实验室寻求数据许可交易的请求。他特别提到了Perplexity，表示该AI搜索初创公司通过聚合服务掩盖其抓取来源，尽管被拒绝。他强调，过度负载的服务器是由于构建不良的应用造成的，这些应用的API调用往往结构效率低下，给Strava的系统带来了不成比例的负担。这是一种模式：当Meta去年禁止第三方聊天机器人使用WhatsApp时，也提出了类似的关于系统负载的论点。这种时机可能并非偶然。Strava在今年早些时候秘密提交了IPO申请，该公司保护数据的举措可能旨在向潜在投资者传达数据纪律。Martin迅速谈及与Reddit在2024年对API访问的打击进行比较。与按调用数量定价API访问的Reddit（这使得许多应用开发者无法承担）不同，Strava认为固定费用能保持开发者生态系统的完整。“我们希望用户感到他们拥有自己的数据，并对我们如何控制和保护这些数据感到舒适。但我们希望开发者能够继续繁荣和成长，”Martin说。当您通过我们文章中的链接购买时，我们可能会获得少量佣金。这不会影响我们的编辑独立性。Ivan负责报道TechCrunch的全球消费科技动态。他位于印度，曾在《赫芬顿邮报》和《下一步网络》等出版物工作。您可以通过发送电子邮件到im@ivanmehta.com或通过Signal上的ivan.42加密消息联系或验证Ivan的联系。