关于搜索引擎蜘蛛对网站页面爬行规律的一点分享

标签： | 作者：众腾网络 | VISITORS:856 | 来源：www.zt-web.com

MAR
2022

　　当网站有了蜘蛛来访，你的网站页面才有被收录的可能，而搜索引擎蜘蛛会来爬行我们网站的html代码，然后把数据拆分为标题、摘要、头图、正文等结构化数据，带回给搜索引擎的服务器，进行筛选放入数据库，接下来是关于搜索引擎蜘蛛对网站页面爬行规律的一点分享。【网站优化】

　　现在的网站数量以百亿计算，每个页面都有快照备份是不现实的，所以搜索引擎蜘蛛会优胜劣汰，就像是有探路的先锋，有主力的部队，有功能之分，其实并没有高低权重之分。

　　搜索引擎蜘蛛对网站内页的爬行规律：

　　搜索引擎蜘蛛主要由收录与快照两种蜘蛛构成，通常123IP开头的是收录蜘蛛，220IP开头的是快照蜘蛛，我们通过这两种蜘蛛的日志访问情况，基本上能判断出这个网站在搜索引擎看来是不是一个优质的网站。

　　1、内容有质量的页面：新发一篇文章后，通常是123开头的蜘蛛先行，然后220开头的蜘蛛后行，接着当天或隔1-2天，快照就会有更新。

　　2、404页面爬取规律：当网站删除了几篇已收录的内页访问变成404后，123开头的蜘蛛来爬取时，一般发现两次404后，搜索引擎蜘蛛就不会来了。

　　3、文章内容劣质页面：如果是用文章生成器生成的拼凑文章，排版乱无可读性，123开头的蜘蛛来了一次以后就没有再来了。

　　那么搜索引擎蜘蛛爬行真正的逻辑应该是：123开头蜘蛛打冲锋，对网页内容进行筛选，以便减少不必要的服务器资源浪费;220开头蜘蛛一般在123蜘蛛筛选过后才进入，如果网页内容实在劣质，220开头的蜘蛛不会造访;对于已经收录快照的页面，是220开头直接来访。

　　最后得出的结论如下：

　　1、123开头的IP是收录蜘蛛，所谓收录蜘蛛是指搜索引擎蜘蛛造访后，搜索引擎后端会通过一系列判定手段，如反作弊处理、原创度检测等等，决定是否能够可以收录，是否可以牵引网页快照蜘蛛到访。

　　2、220开头的IP是快照蜘蛛，当快收录蜘蛛检测网页通过了收录标准之后，通过快照蜘蛛生成结构化数据，进入倒排索引，这个时候的网页才有快照，才能被用户搜索到。

　　所以每次快照更新前，收录蜘蛛、快照蜘蛛均有造访，而收录蜘蛛与快照蜘蛛访问比率一般不超过2:1，如果收录蜘蛛出现次数远远大于快照蜘蛛，说明网页的内容还不过关。

转载声明：本文由桂林众腾网络原创文章
转载请注明来源： http://zt-web.com/shows.php?id=861