Python爬虫基础之爬虫的分类知识总结_Python

Python爬虫基础之爬虫的分类知识总结

2021-11-01 09:55松鼠爱吃饼干 Python

来给大家讲python爬虫的基础啦,首先我们从爬虫的分类开始讲起,下文有非常详细的知识总结,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(baidu、google、sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

Python爬虫基础之爬虫的分类知识总结

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的html是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面，进行各种步骤的预处理:中文分词，消除噪音，索引处理。。。
搜索引擎在对信息进行组织和处理后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整个网页，不是具体详细的信息。
搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况，聚焦爬虫技术得以广泛使用。聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页数据。

三、robots协议

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

robots协议也叫爬虫协议、机器人协议等，全称是“网络爬虫排除标准”(robots exclusionprotocol)，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt