网站日志现AI爬虫频繁来访,原创内容或被无偿利用咋防?

不知道大家有没有在网站日志里尤其是中文内容网站,发现一个叫 Bytespider 的爬虫来访请求特别的频繁,甚至有时候会超过 GPTBot,另外还有 Amazonbot、ClaudeBot 等等,这些就是 AI 爬虫,你以为它们是在抓取你的网站一起看,很青睐你的网站吗?明月可不这么认为,从我自己使用‎Gemini、ChatGPT、豆包、DeepSeek 等等 AI 工具情况来看,如果放纵 AI 爬虫的来访请求抓取,可能意味着你网站原创内容正在被人无偿利用。

五洛云服务器内容网站接入 CloudFlare 的建议开启针对 AI 爬虫的「AI 迷宫」

这个利用你可以理解为是训练 AI,要知道的是很多 AI 工具仅仅只是利用,不会给你的网站带来任何的流量,除非你的网站重要内容是被加密(比如:必须注册登录才能查看或者必须付费阅读),很明显我们大部分的内容网站几乎都是完全开放的,那怕你在 robots.txt 里禁止了 AI 爬虫也没用,因为一些 AI 公司,例如 Anthropic、Perplexity AI 等,屡次被指控忽视这种协议,擅自抓取数据。

好在,CloudFlare最近新推出了个叫 AI Labyrinth 的新工具,用以对付未经授权、到处抓取网页数据的爬虫机器人。Cloudflare 介绍称,当系统识别到异常爬虫行为时,「AI 迷宫」就会启动,将这些机器人引向由 AI 自动生成的虚假页面。这些页面毫无实际价值,仅用于消耗机器人的时间与资源,令其陷入困惑,最终无法获取有效数据。

Cloudflare 表示,每日大约有 500 亿次爬虫访问请求。尽管已开发多种拦截工具,但爬虫总能迅速适应并绕过防御措施。这次 Cloudflare 转变策略,不再直接拦截,而是通过生成迷宫般的虚假页面,让机器人陷入无用信息的循环,主动消耗自身的资源。这不就是针对 AI 爬虫的【蜜罐】嘛!

啥也不说了,直接无脑开启这个「AI 迷宫」就是了,免费版的CloudFlare也可以使用的,具体位置如下图所示:

五洛云服务器内容网站接入 CloudFlare 的建议开启针对 AI 爬虫的「AI 迷宫」

五洛云服务器内容网站接入 CloudFlare 的建议开启针对 AI 爬虫的「AI 迷宫」

如上图箭头所示就是开启了这个「AI 迷宫」

CloudFlare 这个赛博菩萨是真的是尽职尽责,现在 AI 铺天盖地的来势汹汹,作为一个内容网站首要做的就是应对好这波 AI 爬虫的来袭,尤其是坚持原创内容的,这就是在保护自己的切身利益一起看博客,毕竟不是谁都能接受自己辛辛苦苦撰写的内容被 AI 拿去免费训练和使用。你愿意不?

虽然五洛云服务器无论是境内还是境外的给的带宽都足够用,但这不是无视 AI 爬虫频繁来访的理由,为啥我就不能把带宽最大化的给谷歌、必应爬虫呢?毕竟谷歌、必应至少是会给我网站带来流量的呀!现在的 AI 工具有几个给用提供连接的?


本文转载自互联网,如有侵权,联系删除

发布评论