热点科技 08-22
过河拆桥?为防“爬虫”爬取数据训练AI,百度百科屏蔽了谷歌等友商
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日有报道称,为了防止未经允许的 " 爬虫 " 爬取数据用于训练 AI,百度百科已经屏蔽了谷歌、必应等大多数搜索引擎。百度啊百度,你也学会过河拆桥了?

有网友扒出了百度百科的 robots.txt 文件,发现允许放行的白名单中,只有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider 和宜搜搜索(EasouSpider)几个搜索引擎,而谷歌、必应、微软 MSN、UC 的 Yisouspider 以及其他搜索引擎的爬虫已被列入了禁止名单。

众所周知,搜索引擎的工作原理,就是依靠 " 爬虫 " 到不同的网站上爬取数据,然后展示在自己的搜索结果中。

百度曾经能搜到很多内容,但百度的 " 爬虫 " 过于高频地访问网站爬取数据,会对网站的服务器产生巨大压力,影响到了正常运转,会主动选择禁止百度爬取数据。此外,一些网站为了占据用户心智、避免影响广告收入等原因,也会主动选择屏蔽百度的爬虫,这就导致百度越来越难搜到想要东西了。

近几年,AI 大模型的快速发展,需要不少用户真实数据进行支撑,而包含百度用户自发编辑的百科内容,绝对是一个不小的数据训练宝库," 人均硕博学历、频繁刚下飞机 " 的知乎也是同理。但据爆料,知乎已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。

曾经,百度起家靠的就是爬遍全网的 " 爬虫 " 们,把自己爬到了 " 国服第一 " 的位置。但现在,想在文心一言上发力的百度却反手禁了其他友商的爬虫,把车门给焊死了,谁都别想上来。

对此,我们也只能感叹到,互联网越来越不互联了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

百度 谷歌 ai 搜索引擎 百度百科
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论