Cloudflare对Perplexity的爬虫行为进行封锁
根据互联网基础设施提供商Cloudflare的说法,Perplexity的爬虫在网站明确封锁它们后,仍然继续访问成千上万的网站内容。
Cloudflare在周一表示,已将Perplexity从其认证机器人程序中除名,并对其所谓的欺骗性抓取行为实施了封锁。
总部位于旧金山的Perplexity由Aravind Srinivas(首席执行官,前OpenAI研究员)、Denis Yarats(前Facebook AI)、Johnny Ho和Andy Konwinski(Databricks的联合创始人)于2022年成立。该公司获得了包括Elad Gil、Nat Friedman(前GitHub首席执行官)和Nvidia等投资者的资金,并在上个月融资1亿美元后,估值达180亿美元。
最近的冲突发生在Cloudflare客户投诉Perplexity仍在抓取他们的网站,尽管已实施robots.txt指令和特定的防火墙规则以阻止该AI公司的声明爬虫。Cloudflare的工程师Gabriel Corral、Vaibhav Singhal、Brian Mitchell和Reid Tatoris在测试中确认,“Perplexity的爬虫确实在特定页面上被封锁。”
为了测试Perplexity的行为,Cloudflare创建了多个新购买的域名,并设定了限制性robots.txt文件,禁止所有自动访问。
“我们通过向Perplexity AI询问这些域名的问题进行了一次实验,发现Perplexity仍然提供有关每个受限域名上托管的确切内容的详细信息。”
接下来发生的事情让他们感到惊讶。Perplexity似乎没有遵守封锁,而是改变了策略。“我们观察到,Perplexity不仅使用他们声明的用户代理,还使用一个通用浏览器,意图在其声明的爬虫被阻止时伪装成macOS上的Google Chrome,”工程师们写道。
这些隐蔽的爬虫采用了复杂的规避技术。
“这个未声明的爬虫利用了多个不在Perplexity官方IP范围内的IP,并会根据限制性robots.txt政策和Cloudflare的封锁在这些IP之间切换。除了切换IP外,我们还观察到请求来自不同的ASN,以进一步规避网站封锁。”
根据Cloudflare的说法,Perplexity的“声明”爬虫——那些容易识别的爬虫——每天发出2000万到2500万次请求,而未声明的隐蔽爬虫——那些依赖阴暗手段隐藏其目的的爬虫——每天增加300万到600万次请求。
“这种活动在成千上万的域名和每天数百万次请求中被观察到,”Cloudflare表示。
Perplexity没有回应Decrypt的评论请求。一位发言人对TechCrunch表示,这些指控不过是Cloudflare的“销售宣传”。
Cloudflare首席执行官Matthew Prince对他认为AI公司对网络内容的不可持续提取表达了强烈看法。“随着人们越来越依赖AI摘要,搜索流量推荐急剧下降。”在七月份,他披露了毁灭性的比率:虽然Google每抓取18个页面就发送1名访客,AI公司的表现则差得多。OpenAI的比率从六个月前的250比1恶化到今天的1500比1。Anthropic的数字甚至更极端,在同一期间从6000比1跃升至60000比1。
这促使Cloudflare启动了其所谓的“内容独立日”,对所有新域名默认阻止AI爬虫,成为保护内容创作者免受烦人AI爬虫威胁的事实上的守护者。
正如Decrypt之前报道的,自去年秋季以来,已有超过一百万个网站选择封锁,主要出版商包括美联社、《时代》杂志、《大西洋月刊》、BuzzFeed、Reddit、Quora和环球音乐集团也加入了这一运动。
“爬虫应该透明,服务于明确的目的,执行特定的活动,最重要的是,遵循网站指令和偏好,”Cloudflare表示。该公司将Perplexity的行为与OpenAI进行了对比,称OpenAI正确地尊重robots.txt文件,并在被封锁时停止抓取。
Cloudflare的应对措施包括立即的技术措施和长期的倡议。该公司已将隐蔽爬虫的特征匹配部署到其管理规则中,所有客户包括免费用户均可使用。此外,还在开发“AI迷宫”等工具,该工具可以将不合规的机器人困在虚假内容的迷宫中,以及一个“按爬取付费”的市场,允许出版商向AI公司收取访问其内容的费用。