分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - 用python爬虫爬取CSDN博主信息

用python爬虫爬取CSDN博主信息

2021-10-09 00:16皖渝 Python

这篇文章主要介绍了如何用python爬虫获取CSDN博主信息的方法,原理和代码写的非常详细,对大家学习Python爬取很有用处,有需要的朋友可以和小编一起看一下

一、项目介绍

爬取网址：csdn首页的python、java、前端、架构以及数据库栏目。简单分析其各自的url不难发现，都是https://www.csdn.net/nav/+栏目名样式，这样我们就可以爬取不同栏目了。

以python目录页为例，如下图所示：

用python爬虫爬取CSDN博主信息

爬取内容：每篇文章的博主信息，如博主姓名、码龄、原创数、访问量、粉丝数、获赞数、评论数、收藏数

（考虑到周排名、总排名、积分都是根据上述信息综合得到的，对后续分析没实质性的作用，这里暂不爬取。）

用python爬虫爬取CSDN博主信息

不想看代码的朋友可直接跳到第三部分~

二、selenium爬取

分析目录页可知文章是需要动态加载的，此时需要selenium模拟浏览器不断下拉才能获取新的文章。文章的链接如下所示：

用python爬虫爬取CSDN博主信息

1、第一种爬取思路（未果）

思路图如下：

用python爬虫爬取CSDN博主信息

执行的关键代码如下：

理论上，这段代码看起来是可以实现要求的，但实际上会遇到以下两个问题！

（1）元素定位问题

报错的原因：selenium当打开新的页面后，原来定位过的元素都会失效，需要重新定位元素。上面的driver.back()相当于打开的新的页面（但是对于我们来说只是返回原来的页面）

解决方式：只要每次返回目录页后重新定位元素即可，如下所示：

重新定位后，不难发现，这必须要求blog_url和blog_refind_url这两个列表的长度一致啊！那也就是：每次返回目录页后，需要保持在上一次浏览的位置！ 由此引发了第二个问题：定位元素的不一致。

（2）定位元素不一致

我们在获取所有的文章链接之前，首先进行的下滑页面的操作。而每次driver.back()之后，页面都会回到最初的位置！这就很头疼，如果要保持一样的浏览位置，难道每次返回后都要下拉相同次数的页面么？那么此时我们需要解决的问题则是：如何保持上一级页面的浏览位置。emm，查了一些资料，发现这个需求是和javascript相关的。详细可参考这篇博客：js:返回到页面时滚动到上次浏览位置

大致解决思路：保存每次下滑的位置，然后最终调用最后一次下滑的位置。但归根到底，还是需要每次滑动页面，依旧很麻烦，这种思路到这也只能不了了之了。（会javascript的朋友可以尝试如何让页面直接恢复到上一级页面浏览的位置）

2、第二种爬取思路（成功）

不过，仔细思考一下，上面两个问题的来源关键在于selenium访问页面后，元素会重新定位。而我们第一步定位所有文章链接时保存的列表，里面的元素都是element对象（它是会随着页面变化而改变的！）。所以，我们只要保存每个文章的url到一个列表，挨个访问每个url，不就可以了？

思路图如下：

用python爬虫爬取CSDN博主信息

两种思路的对比与思考：前者装有所有文章的列表里都是element对象，而后者装有所有文章的列表里都是url。后者免去了再返回页面这一操作，相当于将一个爬取二级页面问题转化为一级页面问题！

全部代码如下：

爬取结果如下：

用python爬虫爬取CSDN博主信息

三、webscraper爬取

之前的博客分享过webscraper是一种轻量级的爬取软件。不想看代码的朋友可以用它来复现上述爬取过程。（注：以下爬取过程只是针对首页的某一个栏目）

最终的爬取线路图如下

用python爬虫爬取CSDN博主信息

依旧以首页的python栏为例：

1、创建下拉对象

这个container只是一个id，它可以取任意名字的。其他的设置如下图所示：

用python爬虫爬取CSDN博主信息

type勾选element_scroll_down(负责下拉页面)勾选上multiple后，点击多个文章所在模块后，则会出现红色选定。此时点击done selecting，完成selector的配置。delay设置为2000毫秒（给予页面反应时间）

此外，需要在selector后面加上:nth-of-type(-n+300)，控制爬取的条数，否则它会一直下拉页面！（这里的300则代表需要爬取的总条数）最终，selector的配置如下：

用python爬虫爬取CSDN博主信息

2、创建文章链接对象

保存container的selector后，点击进入下一层，创建如下selector

用python爬虫爬取CSDN博主信息

具体内容如下：

用python爬虫爬取CSDN博主信息

type选择linkselector中不勾选multiple，h2 a则是文章链接定位的位置

link不方便定位的话，可以先选择text进行定位，然后得到位置后，再复制到link这即可。

3、创建博主信息对象

同理，保存完inf的selector后，再点击进入下一层，依次创建各类信息的selector，如下所示：

用python爬虫爬取CSDN博主信息

以name为例，其内容如下：

用python爬虫爬取CSDN博主信息

type选择text，相应的选择器内容只要鼠标点击博主姓名即可获得。

这样，我们就完成了所有的准备工作，接下来就可爬取啦~所有延迟时间均设置为2000ms

用python爬虫爬取CSDN博主信息

最终爬取结果如下（这里仅作演示，只爬取了七条）：

用python爬虫爬取CSDN博主信息

本次创建的sitemap如下，有兴趣的朋友可以自己实验下，只需要import sitemap即可

用python爬虫爬取CSDN博主信息

总结：webscraper虽然简单易操作，速度也和selenium差不多，但每次只能爬一个网址，需要连续爬取多个网址，还是得码代码~
以上就是使用python快速爬取csdn博主信息的详细内容，更多关于python爬取csdn博主信息的资料请关注服务器之家其它相关文章！

原文链接：https://blog.csdn.net/shine4869/article/details/108996298

延伸 · 阅读

精彩推荐

Python

python 列表转为字典的两个小方法(小结)

这篇文章主要介绍了python 列表转为字典的两个小方法(小结)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

出泥的鱼16542021-07-25
Python

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在本篇内容里小编给大家分享的是关于Python3以GitHub为例来实现模拟登录和爬取的实例讲解，需要的朋友们可以参考下。 ...

爱喝马黛茶的安东尼5262020-07-31
Python

python 插入Null值数据到Postgresql的操作

这篇文章主要介绍了python 插入Null值数据到Postgresql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

MichaelZhu6452021-09-16
Python

python直接访问私有属性的简单方法

下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

Python教程网5152020-09-03
Python

Python实现ping指定IP的示例

今天小编就为大家分享一篇Python实现ping指定IP的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

EpisodeOne12902021-02-28
Python

使用NumPy和pandas对CSV文件进行写操作的实例

今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

qq_2468356113602021-03-05
Python

Python的dict字典结构操作方法学习笔记

这篇文章主要介绍了Python的dict字典结构操作方法学习笔记本,字典的操作是Python入门学习中的基础知识,需要的朋友可以参考下...

Lizo_Is_Me4402020-08-22
Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

这篇文章主要介绍了在Windows系统上搭建Nginx+Python+MySQL环境的教程,文中使用flup中间件及FastCGI方式连接,需要的朋友可以参考下 ...

没有终点的列车13242020-08-05