位置:编程技术网 > 研发管理 > 正文 >

字节跳动的搜索爬虫为何如此野蛮凶猛?

2019年11月09日 00:11来源:未知手机版

上海热线租房,林建名,dnf力法刷图加点

面对对手们加筑的越来越高的内容壁垒,字节跳动对内容的焦虑似乎更强烈,直接反映在了搜索爬虫凌厉的抓取上。

文|《中国企业家》记者 赵东山

编辑|刘宇翔

头图制作|肖丽

当看到字节跳动要做全网搜索的新闻时,王东一点都不感到惊讶。因为早在头条搜索正式上线半个多月前,王东所在公司的网站就饱受一个名为“bytespider”爬虫的侵扰。

王东在一家第三方信息评估平台做SEO(搜索引擎优化),今年7月份,他突然发现公司的网站经常性打不开,网页加载极其缓慢,有时甚至直接瘫痪。经过一系列排查后,王东在服务器日志上发现了bytespider爬虫的痕迹。

王东发现该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。顺着该爬虫的IP地址查询,王东和团队证实,该爬虫就是字节跳动的搜索爬虫。

苦主并非只有王东,他在CSDN、V2EX等技术论坛了解到,遭受该爬虫暴力抓取的还有很多人,很多用户直接表示“太频繁”“不杀不行”“直接封杀”。魏立超在一家互联网社区平台工作,同样遭受bytespider的暴力抓取,他也曾尝试过在网络上求助。10月24日,类似的事情经过微博大V的曝光,一时引起互联网技术圈子的热议。

但令魏立超感到心寒的是,网上却流传着一种“弱者活该”的说法——“能被头条搜索引擎抓取应该觉得荣幸才是,说明你们内容有价值”,“今日头条是在免费给你们做性能测试,如果你们网站随便被搜索引擎抓死,那技术可以下岗了”。

因为不堪其扰,给公司带来重大损失,无奈之下,像王东、魏立超这样的网站主们都只好封禁了该爬虫IP所有频段。

对此,字节跳动回应《中国企业家》称,“网络报道不实,目前头条搜索设有反馈机制,网站因为爬虫受到影响,可以直接通过邮件反馈处理。”

从字节跳动开始做搜索之后,网络上就一直有网站主们抱怨其爬虫抓取过于暴力的声音,到今年10月末,小网站主的抱怨达到高峰,至今余波未平。

野蛮爬虫

爬虫是网络爬虫的一种简称,它是一种按照一定规则自动地抓取万维网信息的程序或脚本,定时并按照一定的频率把互联网上的内容爬下来,汇总存储到自己的服务器上,以方便用户搜索。

通常来讲,在互联网技术圈,数据抓取是一件很正常的事情。通过爬虫抓取网站内容是搜索引擎进行数据积累的必要前提。此外,一些数据分析、数据采集的功能也依赖爬虫技术实现。但爬虫抓取也有一些江湖规则或君子协定,比如robots协议。robots协议由网站主自行设置,网站会规定爬虫引擎哪些内容数据可以抓取,哪些禁止抓取,尤其是涉及到用户数据等隐私信息的。

但是王东发现bytespider的特征是不遵守robots协议,且抓取频次太高。从技术社区了解到,爬虫就是对服务器的内容进行访问的过程,任何访问都会占用服务器的响应资源,一旦瞬间访问压力超过程度,就会对网站的稳定性造成影响。为了维护整个互联网生态,爬虫的所有者会通过一定的策略来控制爬虫访问的速度和总量。

所以,有技术人员认为,“应该是字节跳动本身在控制爬虫抓取的频次上出了问题。”

其实,对于像王东这样做SEO的人来说,其主要工作目标就是希望自己家网站能在主流搜索引擎的搜索结果中排在前面的位置。“对于像百度、搜狗、360等搜索引擎的规范抓取和收录我是非常欢迎的,但是bytespider却直接让网站瘫痪了,这也导致网站流量在那段时间也掉了不少。”

令王东们头疼的是,字节跳动的搜索引擎既没给他们带来多少新流量,反倒还给公司带来很多损失,并且影响了正常的用户访问。

本文地址:http://www.reviewcode.cn/yanfaguanli/92638.html 转载请注明出处!

今日热点资讯