乐天堂·fun88(中国)APP下载

您当前位置:

乐天堂·fun88(中国)APP下载 > 设计团队

Claude团队引众怒为爬数据不择手段给爬虫改名字无视禁止规则Fun88app官网

发布时间:2024-08-05 浏览次数:

  乐天堂fun88.(中国)官方平台乐天堂fun88.(中国)官方平台乐天堂fun88.(中国)官方平台原因:24小时内访问某公司服务器100万次,以不付费形式,爬虫抓取网站内容Fun88app官网。

  这家“受害者”公司其实尽力防御了,但阻止失败,内容数据还是被Claude抓走了。

  “我建议用‘偷’,而不是‘不付费’来描述Anthropic的这种行为。”

  强烈谴责Anthropic的这家公司叫做iFixitFun88app官网,是一家美国电子商务和操作指南网站。

  iFixit的业务的一部分,是为消费电子产品和小工具提供类的免费在线维修指南。

  网站内有数百万个页面,包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

  但,iFixit突然发现,Claude的爬虫程序ClaudeBot在几个小时内,每分钟都有数千次请求访问。

  据统计,它一天内访问了10 TB的文件,整个5月份总计访问了73 TB。

  未经许可,ClaudeBot偷走我们所有的数据,还把我们的服务器占满了……Fine,这也没什么大不了。

  未经iFixit明确事先书面许可,严禁因为任何其他目的(包括训练机器学习或人工智能模型)复制、复制或分发本网站上的任何内容、材料或设计元素。

  Claude不仅视若无睹地继续疯狂访问-抓取,还躲避了iFixit的防御。

  但这俩AI抓取机器人似乎已经是过去式了,目前的主力爬虫正是没被阻止成功的“ClaudeBot”。

  逼不得已,老K表示,iFixit本周修改了robots.txt文件,专门用来阻止Anthropic的爬虫机器人。

  ANTHROPIC-AI 和 CLAUDE-WEB 这俩确实是公司使用过的旧爬虫,但现在已经停止使用了。

  翻看Anthropic的官方网站可以发现,早就挂着一篇名为《Anthropic是否从网络上抓取数据?网站所有者如何阻止抓取工具?》的文章。

  根据行业标准,Anthropic使用各种数据源进行模型开发,例如通过网络爬虫收集的来自互联网的公开数据。

  我们的目标是通过考虑爬取相同域的速度,并在适当的情况下尊重爬行延迟来将干扰降到最低。

  在几个小时中,ClaudeBot多次访问论坛爬取数据,导致论坛在几个小时内处于超低速or崩溃状态,最终完全崩掉。

  有人表示,在同一时间内,ClaudeBot占用的流量独占鳌头,是第二名的20倍、第三名的40倍。

  既然放禁爬取公告没有用,那不放在网站中搞一些带有可追踪or独特信息的虚假信息,以便检测是谁偷走了数据。

  而且真的有用——发现自家网站的信息不仅被Claude爬个底朝天,还被OpenAI也爬走了……

  前几天就有一家名为Tollbit的机器人检测初创公司声称Perplexity、Claude、OpenAI会忽略爬取网站上的robots.txt设置——当时有人跑去问了OpenAI的态度,OpenAI不予置评。

  《福布斯》谴责AI搜索产品Perplexity其新闻文章;一石激起千层浪,更多媒体站出来,指责Perplexity的爬虫机器人PerplexityBot非法抓取自家网站信息。

  理论上讲,不管是ClaudeBot还是PerplexityBot,在遇到标明“禁止抓取”“禁止robot.txt”的文件时,都应该遵从协议,规避爬取声明方网站的内容。

  既然声明无效,就有人呼吁创作者把内容尽可能转移到付费区域,来防止无限制的抓取。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

联系地址:广东省广州市天河区88号

联系电话:400-123-4567

E-mail:admin@ahzyxzb.com

服务热线:13800000000

扫一扫,关注乐天堂fun88

Copyright © 2012-2024 乐天堂fun88(中国)APP下载 版权所有

津ICP备16006615号-2
网站地图