【ONI-005】ロリ専科 キミだけに語りかけ!ロリ校生21人!オマ●コぴちゃぴちゃ指入れ自画撮りオナニー4時間DX vol.05 AI厂商为数据发狂,尽然王人开动“DDos”小网站了
“AI大模子行将遇到数据荒”这件事,从2023年开动就成为了AI拓荒者对异日最大的担忧,以至有辩论团队照旧给出了高质地语料数据将会在2026年破费的臆测。由此也使班师捏大王人数据的互联网试验平台、新闻机构、出书商瞬息发现【ONI-005】ロリ専科 キミだけに語りかけ!ロリ校生21人!オマ●コぴちゃぴちゃ指入れ自画撮りオナニー4時間DX vol.05,在AI期间“卖铲子”这活不仅英伟达耀眼,我方好像也能作念。
而AI厂商则很快发现,我方头上的大山除了英伟达,还要多出个数据供应商。尽管谷歌、OpenAI等实力浑厚的大厂不错遴聘“银弹攻势”,一边找英伟达买算力卡,一边与Reddit等网罗社区及新闻媒体完结面作,但资金丰沛的大厂毕竟是少数,绝大多数初创企业、哪怕是AI独角兽王人缺钱。
AI大模子需要连续投喂数据来进行迭代,可AI厂商缺钱又照旧是开阔表象,如斯一来就有厂商遴聘了用本事技巧来“豪夺”数据。日前有讯息泄漏,AI独角兽Anthropic无视闻明维修网站iFixit的条目,使用爬虫ClaudeBot在24小时内猖獗考查近百万次。
以至于iFixit CEO Kyle Wiens平直在酬酢平台向Anthropic隔空喊话,“你简直有必要在24小时内考查咱们的行状器100万次吗?你不仅在不付费的情况下获取咱们的试验,还占用了咱们的devops资源,极少王人不酷!”此外Kyle Wiens还进一步默示,“若是你念念要跟咱们谈谈试验许可和交易用途的话,咱们就在这呢。”
动作全球闻明的消费电子居品维修网站,iFixit的市集竞争力就开始于网站上提供的着实任何类型、任何型号电子建造对应的免费维修手册、处罚决议,以及iFixit用户社区。这些电子居品的维修常识无疑即是iFixit的立身之本,因此iFixit方面也在其robots.txt文献中添加了一转特定于Anthropic爬虫的禁用教导。
随后Anthropic方面复兴称,他们尊重robots.txt公约,并在iFixit扩充禁令后恪守了关系规矩。其实不单是是iFixit,全球限制最大的外包行状撮合平台Freelancer相同亦然Anthropic的受害者,该公司CEO Matt Barrie也默示,ClaudeBot是最激进的爬虫,Freelancer在四小时内收到了来自Anthropic爬虫的350万次考查,远超其他AI爬虫的考查量。
关于iFixit、Freelancer这种专注于细分赛谈的“隐形冠军”【ONI-005】ロリ専科 キミだけに語りかけ!ロリ校生21人!オマ●コぴちゃぴちゃ指入れ自画撮りオナニー4時間DX vol.05,24小时内数百万次考查肯求照旧算得上是一次小限制的鉴别式拒却行状膺惩(DDoS)了。对此,Anthropic方面默示正在考查此事件,以确保其爬虫举止对团结域名的考查频率最小化,从而减少纷扰。
那么问题就来了,Anthropic其实不缺钱,毕竟动作OpenAI的第一强敌,仅亚马逊一家就对其投资了40亿好意思元。Anthropic方面以至在本月初集结风险投资公司Menlo Ventures共同推出了一只1亿好意思元的基金Anthology Fund,为早期的AI初创公司提供撑持。
校园春色没错,身为AI独角兽的Anthropic已然开动“扶携后辈”,玩起了大公司标配的政策投资。对此,似乎就只可用Anthropic的商酌策略是“该省省,该花花”,能不花的钱就一定不花来讲授了。
正因如斯,Anthropic的作念法才让iFixit、Freelancer的CEO“破防”。动作一家在业界颇有声望的AI独角兽,Anthropic的作念法毫无疑问是开了个坏头。要知谈反爬虫策略自己是弗成能饱胀根绝爬虫的,因为信息只消对外提供,就势必有被抓取的可能。在这一基础上的robots.txt,其实即是一个针对网罗爬虫的正人公约,也恰是谷歌、雅虎等大厂的带头恪守,才有了以前二十年间互联网寰宇的步骤。
目前明明Anthropic是有向试验平台购买数据的预算,却偏巧遴遴聘本事技巧来“零元购”,岂不是就意味着其他囊中憨涩的AI初创企业也会有样学样。可偏巧当下是AI创业的上升,作念AI的厂商不知凡几,若是寰球王人效仿Anthropic这一玩法,高频次、大流量的考查势必会让网站“压力山大”,照旧与DDoS网罗膺惩步履无异了。
濒临DDoS这种目前最浅近、亦然最荼毒的网罗安全破损举止,着实唯有两个有用阶梯不错处罚,即用更大的带宽资源来容纳超预期的网罗肯求,或是使用流量清洗来过滤掉无须流量。很缺憾的是,这两种策略王人未低廉,中小网站频繁是买不起的。
AI厂商关于数据的需求永无特地,可偏巧不肯意付钱,而一般的网站罕有据、却枯竭保护这一金钱的技巧。若是此次Anthropic只是是“有则改之”,连一个谈歉王人莫得的话,后续试验平台卖数据的生意就怕就要难作念了,互联网寰宇可能会开动投入周礼崩溃后的春秋战国期间。
在AI厂商的爬虫高频次考查下,中小网站别说卖数据,可能就连平日的运营王人会受到影响。若是念念要让我方的网站免受爬虫惊扰,“自污”策略粗略很快就会莳植。而所谓“自污”其实很浅近,毕竟AI厂商的爬虫但愿赢得数据来锻真金不怕火AI,可假如数据自己弗成用呢?
温雅AI大模子的一又友关于“AI投毒”这个词念念必不会生分。就在不久前,《Nature》封面刊登了来自牛津大学、剑桥大学等机构的辩论论文,试验即是AI锻真金不怕火AI会出现弗成逆转的裂缝,进而使得模子性能着落。这篇著作尽管在业界充满了争议,但其中给AI投喂低质地数据会导致模子劣化却收到了共鸣。
如今,数据投毒膺惩(Data Poisoning Attack)照旧是一个AI辩论规模弗成遁入的问题,只需要锻真金不怕火集有不到1%的数据被玷辱,大模子输出试验的准确率就会大幅着落。用坏话去考证坏话得到的一定是坏话,若是数据汇集的参数自己就有问题,得到的回答当然即是错漏百出。
念念要得到高质地数据需要凝华东谈主类的智谋,但念念要打消它可就浅近多了。若是AI厂商不保持克制,一朝试验平台的运营者完结共鸣,用玷辱自派别据的姿色来处罚这个问题,遇到数据荒的时期就怕就会近在眉睫。
#深度好文辩论#【ONI-005】ロリ専科 キミだけに語りかけ!ロリ校生21人!オマ●コぴちゃぴちゃ指入れ自画撮りオナニー4時間DX vol.05