Google 搜索是一个全自动搜索引擎,它使用网络爬虫定期探索网络以查找要添加到索引中的页面。搜索结果中列出的绝大多数页面都不是手动提交的,是网络爬虫浏览网络时自动找到并添加的。 
    请务必注意,Google 官方称不接受付款以更频繁地抓取网站或将其排名更高。即使您网页遵循 Google 为网站所有者制定的指南和政策,Google 也不保证它会抓取、索引或提供相关的网页。


Google 搜索的三个阶段
Google 搜索分三个阶段工作,并非所有页面都能通过每个阶段:
1.抓取:Google 使用自动化抓取工具从互联网上找到页面并下载文本、图像和视频
2.索引:谷歌分析页面上的文本、图像和视频等,并将信息存储在谷歌索引(一个大型数据库)中。
3.提供搜索结果:当用户在 Google 上搜索时,Google 会返回与用户查询相关的信息。

抓取
    第一阶段是找出网络上存在哪些页面。 谷歌的中央注册表不可能包含所有网页,因此谷歌必须不断寻找和更新页面,并将它们添加到其已知页面列表中,这个过程称为“URL 发现”。

    一旦 Google 发现页面URL,它可能会访问(或“抓取”)该页面以找出其中的内容。 执行抓取的程序称为 Googlebot(也称为机器人、机器人或蜘蛛)。Googlebot 使用算法过程来确定要抓取哪些网站、抓取频率以及从每个网站抓取多少页面。谷歌的爬虫程序也被编程为尽量不要太快地爬取网站以避免超载。此机制基于网站的响应(例如,HTTP 500 错误意味着“减速”)和 Search Console 中的设置。

    但是,Googlebot 不会抓取它发现的所有页面。某些页面可能被网站所有者禁止抓取,其他页面可能无法在未登录站点的情况下访问,并且其他页面可能与之前抓取的页面重复。

    在抓取过程中,Google 会呈现页面并使用最新版本Chrome 运行它找到的任何 JavaScript,类似于浏览器呈现访问页面的方式。渲染很重要,网站通常依赖 JavaScript 将内容带到页面,如果不渲染,Google 可能看不到该内容。

Googlebot 访问网站的一些常见问题包括:
  • 服务器处理网站的问题

  • 网络问题

  • robots.txt 指令阻止 Googlebot 访问页面


索引
    抓取页面后,Google 会尝试了解该页面的内容。此阶段称为索引,它包括处理和分析文本内容和关键内容标签和属性,例如 <title> 元素和 alt 属性、图像、视频等。

    在索引过程中,Google 会确定一个页面是互联网上另一个页面的副本还是规范页面。规范是确定页面可能显示在搜索结果中。为了选择规范,谷歌首先将在互联网上找到的具有相似内容的页面进行聚类,然后选择最能代表该组的页面该组中的其他页面是可以在不同搜索环境中提供替代版本。


    Google 还会收集有关规范页面及其内容的信号,依据信号在搜索结果中提供该页面。信号包括页面的语言、内容所在的国家/地区、页面的可用性等


    收集到的有关规范页面及其集群的信息可能存储在 Google 索引中(这是一个托管在数千台计算机上的大型数据库)。并非 Google 处理的每个页面都会被编入索引。


索引还取决于页面的内容及其元数据。一些常见的索引问题可能包括:

  • 页面内容质量低

  • 机器人元指令不允许索引

  • 网站的设计可能会使索引变得困难


提供搜索结果

    当用户输入查询时,谷歌机器会在索引中搜索匹配页面,并返回谷歌认为质量最高且与用户最相关的结果。相关性由数百个因素决定,其中可能包括用户的位置、语言和设备(桌面或电话)等信息。例如,搜索“自行车维修店”会向巴黎用户显示与向香港用户显示不同的结果。


    Search Console 可能会告诉您某个页面已编入索引,但您在搜索结果中看不到它。这可能是因为:

  • 页面内容的内容与用户无关

  • 内容质量低

  • 机器人元指令阻止服务



点赞(4) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部