白嫖越来越多,网站越来越少,是怎么回事?

500

无法无天的AI爬虫,正在伪造身份、修改 User-Agent、使用住宅IP代理来绕过限制,攻击各种网站。

尤其是中小开发者,由于他们防护措施较为简单,被攻击代价不大,也缺少更有力的技术和法律手段,越来越多地成为AI爬虫肆意爬取数据的牺牲品。

原本就小本经营的网站,因为爬虫的疯狂攻击而卡顿延迟,消耗大量服务器资源,运营成本陡然拉高。而AI爬虫在爬取数据后也只是提上裤子走人,负责更是无从谈起。

众所周知,大模型不是一开始就很多聪明的,它需要大量数据训练,才有我们能看到的“人工智能”。

然而训练的数据是从哪里来的?很大一部分是网络上,通过AI爬虫爬来的。

AI爬虫是一种基于机器学习和大数据技术的自动化数据采集工具,专为训练生成式AI模型而设计。它通过模拟人类行为或绕过传统反爬机制,以更高效率、更大规模抓取互联网上的文本、图片、视频等内容,帮助AI训练。

一直以来,不少网站靠robots.txt机制规避爬虫。

robots.txt是网站根目录下的一个纯文本文件,用于向搜索引擎的爬虫等各路爬虫声明网站的抓取规则。它通过简单的语法指令,告知搜索引擎哪些页面允许抓取,哪些应被禁止访问。

简单地说,它类似于网站大门口的告示,告诉访客哪里能去,哪里不能去。

虽然这只能算个君子协议,不少爬虫也会无视,基本上偷偷摸摸爬取,但这么多年来还是保持了一点体面。

AI爬虫可就不一样了,它们优先抓取高价值数据,经常无视robots.txt,完全是法外狂徒的做派。

而且AI爬虫请求量远超人类用户,每秒请求量数万到数十万次,堪称赛博世界的僵尸撞门。Fedora Pagure 项目的管理员称,最近AI爬虫导致Fedora 代码托管平台 pagure.io瘫痪。由于大部分恶意流量来自.br(巴西)的 IP 段,只能封锁整个 .br(巴西)的IP段才勉强恢复访问。

这样的AI爬虫攻击,对开源开发者伤害尤其严重。

开源开发者非常依赖开放共享精神,因为这样才能吸引更多人为项目添砖加瓦,而这样的项目设防程度不高,很容易被AI爬虫攻击。很多开源项目价值很高,是AI极其愿意汲取的养分来源,AI爬虫就肆无忌惮攻击这些项目。

从公开网站资料中攫取数据,还有另一个问题,人家辛辛苦苦创造的数据被随意拿走,以后AI生成的代码、文章、设计作品与原作高度相似,却无需向创作者支付任何费用。

开发者不得不拿出大量精力限制AI爬虫的攻击,比如设置验证码、提高访问门槛等,这却苦了原本正常访问的普通用户。他们原本是人类,却不得不因为AI破坏,只能适应更高的访问门槛,吭哧吭哧进行验证,证明自己不是爬虫。

更大一点的网站,则会主动将自己封闭起来,以不被爬虫骚扰。

原本开放的资料,也因此成了加密内容,秘而不宣,想要访问,要么得有特定权限,要么付一大笔钱。

开放的互联网精神,越来越像一个笑话。移动互联网时代,大厂们用一个个App画地为牢,把自己的数据和用户圈起来;到AI时代,直接铁索连江,爬虫过不去,用户也过不去了。

更可怕的是,没有被锁起来的数据和知识,就是质量比较差的那批。

我们之前在《AI污染,触目惊心》里提到过,AI能爬取的网络就是个大粪坑,里面很多信息要么是虚假的,要么毫无意义。

这么多虚假语料一把屎一把尿喂大的大模型,还在放爬虫寻找高价值信息,但高价值信息重重保护,根本接触不到,只会让AI爬虫接触的语料进一步劣化,最终互联网里高价值的信息被锁住,反倒是AI不断生成的垃圾内容大行其事,彻底把人类用户和AI全部淹没。

互联网变得越来越封闭,内容越来越差,最终会被AI爬虫毁掉。

上下滑动查看参考资料:

AI爬虫大战让互联网变得更封闭  https://a-mp-weixin-qq-com.observersnews.com/s?__biz=MzI5MTcxMTA3Mw==&mid=2247507398&idx=1&sn=47ce14de27e0f40385f1acc0908401bd&chksm=ed55c235ffab9fa05c651315c83cc923166584cce5af52bf77e30cd37165b5152671adb491ac#rd

AI爬虫拖垮整个网站!开发者崩溃:禁了整个巴西的访问,才勉强救回来 https://a-mp-weixin-qq-com.observersnews.com/s/3xYsJsb2kMQwdQytzlNq5g

文章用图:图虫创意

本回完

站务

全部专栏