
从周二开始,每个注册Cloudflare的新域名都将被询问是否允许或阻止AI爬虫。全球约16%的互联网流量通过Cloudflare路由,这是全球最大的内容分发网络之一。一位律师告诉CNBC,此举可能"阻碍AI聊天机器人获取用于训练和搜索目的数据的能力"。
互联网公司Cloudflare将开始默认阻止人工智能爬虫在未经网站所有者许可或补偿的情况下访问内容,这一举措可能严重影响AI开发者训练模型的能力。
从周二开始,每个注册Cloudflare的新域名都将被询问是否允许AI爬虫,这实际上使他们能够阻止机器人从其网站抓取数据。该公司还将允许发布者使用新的"按抓取付费"模式向AI爬虫收取访问费用。
Cloudflare是一个内容分发网络(CDN)。它通过将数据缓存到更接近终端用户的位置,帮助企业更快地交付内容和应用程序。它们在确保人们每天能够无缝访问网络内容方面发挥着重要作用。
该公司在2023年的一份报告中估计,全球约16%的互联网流量直接通过Cloudflare的CDN。
"AI爬虫一直在无限制地抓取内容。我们的目标是将权力交还给创作者,同时仍然帮助AI公司创新,"Cloudflare联合创始人兼首席执行官Matthew Prince在周二的声明中表示。
"这是关于通过一个适用于所有人的新模式来保障自由和充满活力的互联网的未来,"他补充道。
AI爬虫是自动化的机器人,旨在从网站、数据document和其他信息源提取大量数据,以训练OpenAI和谷歌等公司的大型语言模型。
Cloudflare表示,虽然互联网以前通过将用户引导至原始网站来奖励创作者,但如今AI爬虫正在打破这种模式,它们收集文本、文章和图像以生成查询响应,使用户无需访问原始来源。
该公司补充说,这剥夺了发布者关键的流量,进而影响了广告收入。
周二的举措建立在Cloudflare去年9月推出的一个工具之上,该工具让发布者能够一键阻止AI爬虫。现在,该公司更进一步,将其作为所有服务网站的默认设置。
OpenAI表示,当Cloudflare预览其默认阻止AI爬虫的计划时,它拒绝参与,理由是内容分发网络在系统中增加了一个中间人。
这家微软支持的AI实验室强调了自己作为使用robots.txt的先驱角色,这是一组防止自动抓取网络数据的代码,并表示其爬虫尊重发布者的偏好。
"AI爬虫通常被认为在数据消费方面更具侵入性和选择性。它们被指控使网站不堪重负,严重影响用户体验,"英国律师事务所Cripps的合伙人Matthew Holman告诉CNBC。
"如果有效,这一发展将阻碍AI聊天机器人获取用于训练和搜索目的数据的能力,"他补充道。"这可能会在短期内影响AI模型的训练,并可能在长期内影响模型的可行性。"
观看:AI工程师需求旺盛——但这份工作到底是什么样的?



