搜索引擎蜘蛛的爬行和抓取步骤

来源:合肥网站优化 发布时间:2021/3/18 9:54:55 浏览量:949次

  爬行和抓取网页是搜索引擎工作的第一步,目的是最开始完成网页各种数据的收集任务。
  搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider)或机器人(bot)。合肥网站优化人员一般都是称之为蜘蛛。因为简单方便又好记住。
  搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
  蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。假如网站没有robots.txt文件那蜘蛛就是全站抓取。
  和浏览器一样,搜索引擎蜘蛛也有标明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称:百度蜘蛛,360蜘蛛,Google蜘蛛以及搜狗蜘蛛和移动蜘蛛。

  • 合肥中拓网络科技有限公司

    版权所有

  • 24小时全国服务热线:153-4560-4419

    总部地址:安徽合肥高新区长江西路687号拓基城市广场金座B幢八楼

    总部客服电话:0551-65321807