我们在做Google等搜索引擎推广时一定要让Google抓取你的网页内容,这样才能有被搜索到的可能,那么搜索引擎是如何抓取网页内容的呢?

Google等搜索引擎旨在为互联网用户寻找答案。它们组织互联网,使你能立即发现你想要搜索相关的结果。为了让你的网站出现在搜索结果中,你必须让你的网页在搜索引擎中获得排名。这就是为什么搜索引擎优化(SEO)是如此重要。如果你想在搜索引擎结果页面(SERPs)中出现,你需要一流的SEO技术。



一、 蜘蛛爬虫

想要网页能在Google搜索引擎被用户搜索到首先要让网页被搜索引擎收录,搜索引擎用来爬行和抓取网页内容的程序叫做蜘蛛爬虫,简称为蜘蛛。搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取网页内容。

蜘蛛访问任何一个网站时,都会先去访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。


二、 跟踪链接

为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。
整个互联网是由相互链接的网站及页面组成的。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
最简单的爬行的策略有:深度优先和广度优先。

1、 深度链接
深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。

2、 广度链接
从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

3.吸引蜘蛛
蜘蛛程序不可能抓取所有的网页页面的,它只会抓取重要的网页内容,以下几点就是比较重要的内容:

1、 网站和页面权重:
页面是指网站的所有页面,主页尤为重要,不仅美观,而且质量高。无论哪个页面都有权重,但搜索引擎都会区分页面的权重给页面排名site在网站上,有的域名是首页第一,有的是内页第一,这就是我们所说的页面权重。


2、 页面更新度;

定期更新的网站比很久没有打理的网站流量要高地多!


3、 网站外链:

外链就是指在别的网站导入自己网站的链接。导入链接对于网站优化来说是非常重要的一个过程。导入链接的质量(即导入链接所在页面的权重)间接影响了我们的网站在搜索引擎中的权重。


4.地址库
索引擎会建立一个地址库,这么做可以很好地避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

地址库中的URL有以下几个来源:

(1) 人工录入的种子网站。

(2) 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

(3) 搜索引擎自带的一种表格提供站长,方便站长提交网址。

由于网站的内容经常在变化,因此搜索引擎爬虫也需要不断地更新其抓取网页的内容,这就需要搜索引擎爬虫按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎爬虫并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反,对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

一般来说,搜索引擎爬虫在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分网页,只需判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。




点赞(2) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部