白嫖越来越多，网站越来越少，是怎么回事？

非凡油条
非凡油条官方账号

深度解读全球政治财经动向的前因后果昨天 21:14

500

无法无天的AI爬虫，正在伪造身份、修改 User-Agent、使用住宅IP代理来绕过限制，攻击各种网站。

尤其是中小开发者，由于他们防护措施较为简单，被攻击代价不大，也缺少更有力的技术和法律手段，越来越多地成为AI爬虫肆意爬取数据的牺牲品。

原本就小本经营的网站，因为爬虫的疯狂攻击而卡顿延迟，消耗大量服务器资源，运营成本陡然拉高。而AI爬虫在爬取数据后也只是提上裤子走人，负责更是无从谈起。

众所周知，大模型不是一开始就很多聪明的，它需要大量数据训练，才有我们能看到的“人工智能”。

然而训练的数据是从哪里来的？很大一部分是网络上，通过AI爬虫爬来的。

AI爬虫是一种基于机器学习和大数据技术的自动化数据采集工具，专为训练生成式AI模型而设计。它通过模拟人类行为或绕过传统反爬机制，以更高效率、更大规模抓取互联网上的文本、图片、视频等内容，帮助AI训练。

一直以来，不少网站靠robots.txt机制规避爬虫。

robots.txt是网站根目录下的一个纯文本文件，用于向搜索引擎的爬虫等各路爬虫声明网站的抓取规则。它通过简单的语法指令，告知搜索引擎哪些页面允许抓取，哪些应被禁止访问。

简单地说，它类似于网站大门口的告示，告诉访客哪里能去，哪里不能去。

虽然这只能算个君子协议，不少爬虫也会无视，基本上偷偷摸摸爬取，但这么多年来还是保持了一点体面。

AI爬虫可就不一样了，它们优先抓取高价值数据，经常无视robots.txt，完全是法外狂徒的做派。

而且AI爬虫请求量远超人类用户，每秒请求量数万到数十万次，堪称赛博世界的僵尸撞门。Fedora Pagure 项目的管理员称，最近AI爬虫导致Fedora 代码托管平台 pagure.io瘫痪。由于大部分恶意流量来自.br（巴西）的 IP 段，只能封锁整个 .br（巴西）的IP段才勉强恢复访问。

这样的AI爬虫攻击，对开源开发者伤害尤其严重。

开源开发者非常依赖开放共享精神，因为这样才能吸引更多人为项目添砖加瓦，而这样的项目设防程度不高，很容易被AI爬虫攻击。很多开源项目价值很高，是AI极其愿意汲取的养分来源，AI爬虫就肆无忌惮攻击这些项目。

从公开网站资料中攫取数据，还有另一个问题，人家辛辛苦苦创造的数据被随意拿走，以后AI生成的代码、文章、设计作品与原作高度相似，却无需向创作者支付任何费用。

开发者不得不拿出大量精力限制AI爬虫的攻击，比如设置验证码、提高访问门槛等，这却苦了原本正常访问的普通用户。他们原本是人类，却不得不因为AI破坏，只能适应更高的访问门槛，吭哧吭哧进行验证，证明自己不是爬虫。

更大一点的网站，则会主动将自己封闭起来，以不被爬虫骚扰。

原本开放的资料，也因此成了加密内容，秘而不宣，想要访问，要么得有特定权限，要么付一大笔钱。

开放的互联网精神，越来越像一个笑话。移动互联网时代，大厂们用一个个App画地为牢，把自己的数据和用户圈起来；到AI时代，直接铁索连江，爬虫过不去，用户也过不去了。

更可怕的是，没有被锁起来的数据和知识，就是质量比较差的那批。

我们之前在《AI污染，触目惊心》里提到过，AI能爬取的网络就是个大粪坑，里面很多信息要么是虚假的，要么毫无意义。

这么多虚假语料一把屎一把尿喂大的大模型，还在放爬虫寻找高价值信息，但高价值信息重重保护，根本接触不到，只会让AI爬虫接触的语料进一步劣化，最终互联网里高价值的信息被锁住，反倒是AI不断生成的垃圾内容大行其事，彻底把人类用户和AI全部淹没。

互联网变得越来越封闭，内容越来越差，最终会被AI爬虫毁掉。

上下滑动查看参考资料：

AI爬虫大战让互联网变得更封闭 https://a-mp-weixin-qq-com.observersnews.com/s?__biz=MzI5MTcxMTA3Mw==&mid=2247507398&idx=1&sn=47ce14de27e0f40385f1acc0908401bd&chksm=ed55c235ffab9fa05c651315c83cc923166584cce5af52bf77e30cd37165b5152671adb491ac#rd

AI爬虫拖垮整个网站！开发者崩溃：禁了整个巴西的访问，才勉强救回来 https://a-mp-weixin-qq-com.observersnews.com/s/3xYsJsb2kMQwdQytzlNq5g

文章用图：图虫创意

本回完

社会举报

非凡油条

深度解读全球政治财经动向的前因后果 |

1195篇文章 | 41368人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

白嫖越来越多，网站越来越少，是怎么回事？

非凡油条
非凡油条官方账号

非凡油条

热点

站务

风闻社区小助手_小风

“风闻315离了个大谱用户口碑半月报”新鲜出炉！风闻消费者都在吐槽什么？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

白嫖越来越多，网站越来越少，是怎么回事？

非凡油条 非凡油条官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

非凡油条
非凡油条官方账号