73
AI资讯

开源开发者正以智慧和复仇之心对抗人工智能爬虫


许多软件开发人员认为,人工智能网络爬虫是互联网上的蟑螂。一些开发人员已经开始以巧妙、常常幽默的方式进行反击。


虽然任何网站都可能成为恶意爬虫行为的目标(有时甚至会导致网站瘫痪) ,但 Linux 桌面 Plasma 的开发者兼 LibreNews 博客所有者 Niccolò Venerandi写道,开源开发者受到的影响“尤为严重”。


从本质上讲,托管自由开源 (FOSS) 项目的网站会公开分享更多基础设施,而且它们拥有的资源往往比商业产品要少。


问题在于许多人工智能机器人不遵守机器人排除协议 robot.txt 文件,该文件最初是为搜索引擎机器人创建的,用于告诉机器人不要抓取什么内容。


在 1 月份的一篇“求助”博客文章中,自由/开源软件开发人员 Xe Iaso 描述了 AmazonBot 如何无休止地攻击 Git 服务器网站,甚至导致 DDoS 中断。Git 服务器托管自由/开源软件项目,以便任何想要的人都可以下载代码或为其做出贡献。


但 Iaso 表示,这个机器人忽略了 Iaso 的 robot.txt,隐藏在其他 IP 地址后面,并假装是其他用户。


“阻止人工智能爬虫机器人是徒劳的,因为它们会撒谎、更改用户代理、使用住宅 IP 地址作为代理等等,”Iaso 感叹道。 


“他们会不断抓取你的网站,直到网站崩溃,然后他们会继续抓取。他们会点击每一个链接,一遍又一遍地浏览相同的页面。他们中的一些人甚至会在同一秒钟内多次点击同一个链接,”开发人员在帖子中写道。


进入坟墓之神
于是伊阿索用聪明才智进行反击,他制造了一种名为阿努比斯的工具。 


Anubis 是一种反向代理工作量证明检查,必须通过该检查后请求才能到达 Git 服务器。它可拦截机器人,但允许人工操作的浏览器通过。


有趣的是:阿努比斯是埃及神话中一位引导死者接受审判的神的名字。 


“阿努比斯会测量你的灵魂(心脏)的重量,如果它比羽毛还重,你的心脏就会被吃掉,然后你就会死掉,”伊索告诉 TechCrunch。如果网络请求通过了挑战并被确定为人类,一张可爱的动漫图片就会宣布成功。这幅画是“我对拟人化阿努比斯的看法”,伊索说。如果是机器人,请求就会被拒绝。


这个名字带有讽刺意味的项目在 FOSS 社区中迅速传播开来。Iaso于 3 月 19 日在 GitHub 上分享了这个项目,短短几天内就收获了 2,000 个 star、20 位贡献者和 39 个 fork。



以复仇作为防御 
阿努比斯的迅速走红表明,伊阿索的痛苦并非个例。事实上,维纳兰迪分享了一个又一个的故事:


SourceHut创始人兼首席执行官德鲁·德沃特 (Drew DeVault) 表示,他“每周要花费 20% 到 100% 的时间来缓解大规模超级激进的 LLM 爬虫”,并且“每周都会经历数十次短暂的中断”。
乔纳森·科贝特 (Jonathan Corbet) 是一位著名的 FOSS 开发人员,负责运营 Linux 行业新闻网站 LWN,他警告说,他的网站正因“来自 AI 抓取机器人”的DDoS 级流量而变慢。
庞大的 Linux Fedora 项目的系统管理员 Kevin Fenzi表示,人工智能抓取机器人已经变得如此具有攻击性,他不得不阻止整个巴西国家的访问。
Venerandi 告诉 TechCrunch,他知道有多个其他项目也遇到了同样的问题。其中一个项目“一度不得不暂时禁止所有中国 IP 地址。”  


让我们思考一下——开发人员“甚至不得不禁止整个国家”只是为了抵御忽略 robot.txt 文件的 AI 机器人,Venerandi 说。


除了衡量网络请求者的灵魂之外,其他开发人员认为复仇才是最好的防御。


几天前,在Hacker News上,用户xyzal建议在 robot.txt 禁止页面上加载“大量关于喝漂白剂的好处的文章”或“关于感染麻疹对床上表现有积极影响的文章”。 


xyzal 解释道:“我们认为我们需要瞄准机器人通过访问我们的陷阱来获取负效用价值,而不仅仅是零价值。”


事实上,今年 1 月,一位名为“Aaron”的匿名开发者发布了一款名为Nepenthes的工具,其目的正是实现这一目标。该工具将爬虫程序困在无尽的虚假内容迷宫中,开发者向Ars Technica承认,这一目标即使不是彻头彻尾的恶意,也是极具攻击性的。该工具以一种食肉植物命名。


Cloudflare 可能是最大的商业参与者,它提供了多种工具来抵御 AI 爬虫,上周它发布了一款类似的工具,名为 AI Labyrinth。 


Cloudflare在其博客文章中描述道,其目的是“减慢、混淆并浪费不遵守‘禁止爬行’指令的 AI 爬虫和其他机器人的资源” 。Cloudflare 表示,它会向行为不当的 AI 爬虫提供“不相关的内容,而不是提取您的合法网站数据”。


SourceHut 的 DeVault 告诉 TechCrunch,“Nepenthes 有一种令人满意的正义感,因为它给爬虫程序喂食无稽之谈并毒害它们的水源,但最终 Anubis 才是对他的网站有效的解决方案”。


但 DeVault 也公开诚恳地呼吁采取更直接的措施:“请停止让 LLM 或 AI 图像生成器或 GitHub Copilot 或任何此类垃圾合法化。我恳求你们停止使用它们,停止谈论它们,停止制造新的,就这么停止。”


由于这种可能性微乎其微,开发人员,尤其是 FOSS 的开发人员,正在用聪明才智和一点幽默进行反击。

79821
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|大学生便宜接单给钱就做 3D建模,Blender,3Dmax,c4d都可以 3D建模,模型代做,+/zbrush,Maya,3Dmax,犀牛,雕塑建模/手办建模/景观设计建模/效果图/价格 ,客户信任就是我最大的动力,小物件打印机可打印, 保质保量完成任务。
建模课
¥650
年卡|夜曲编程转让课,3500购入
编程课
¥1100
次卡|包头茂业里的引导者课程 少儿乐高 编程
编程课
¥1400
年卡|扇贝编程课程
编程课
¥1458
次卡|出扇贝编程系列课60节
编程课
¥1500
年卡|学而思在线编程课
编程课
¥1500
次卡|转让秦皇创客机器人编程课20节
编程课
¥1500
次卡|乔斯编程
编程课
¥1500
年卡|西瓜编程,西瓜创客编程
编程课
¥1500
次卡|[全新专属]核桃编程C++年课课程账号,我们会提供后续等级考试和竞赛指导服务。关注享粉丝优惠价!。
c++课
¥1599