分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python采集百度百科的方法

python采集百度百科的方法

2020-07-14 16:40两把刷子 Python

这篇文章主要介绍了python采集百度百科的方法,涉及Python正则匹配及页面抓取的相关技巧,需要的朋友可以参考下

本文实例讲述了python 采集百度百科的方法。分享给大家供大家参考。具体如下：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

									#!/usr/bin/python

									# -*- coding: utf-8 -*-

									#encoding=utf-8 

									#Filename:get_baike.py

									import urllib2,re

									import sys

									def getHtml(url,time=10):

									 response = urllib2.urlopen(url,timeout=time)

									 html = response.read()

									 response.close()

									 return html

									def clearBlank(html):

									 if len(html) == 0 : return ''

									 html = re.sub('\r|\n|\t','',html)

									 while html.find(" ")!=-1 or html.find('&nbsp;')!=-1 :

									  html = html.replace('&nbsp;',' ').replace(' ',' ')

									 return html

									if __name__ == '__main__':

									  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)

									  html = html.decode('gb2312','replace').encode('utf-8') #转码

									  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'

									  content_reg = r'<div class="card-summary-content">(.*?)</p>'

									  title = re.compile(title_reg).findall(html)

									  content = re.compile(content_reg).findall(html)

									  title[0] = re.sub(r'<[^>]*?>', '', title[0])

									  content[0] = re.sub(r'<[^>]*?>', '', content[0])

									  print title[0]

									  print '#######################'

									  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

延伸 · 阅读

精彩推荐

Python

Python的dict字典结构操作方法学习笔记

这篇文章主要介绍了Python的dict字典结构操作方法学习笔记本,字典的操作是Python入门学习中的基础知识,需要的朋友可以参考下...

Lizo_Is_Me4392020-08-22
Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

这篇文章主要介绍了在Windows系统上搭建Nginx+Python+MySQL环境的教程,文中使用flup中间件及FastCGI方式连接,需要的朋友可以参考下 ...

没有终点的列车13232020-08-05
Python

python 插入Null值数据到Postgresql的操作

这篇文章主要介绍了python 插入Null值数据到Postgresql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

MichaelZhu6452021-09-16
Python

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在本篇内容里小编给大家分享的是关于Python3以GitHub为例来实现模拟登录和爬取的实例讲解，需要的朋友们可以参考下。 ...

爱喝马黛茶的安东尼5262020-07-31
Python

Python实现ping指定IP的示例

今天小编就为大家分享一篇Python实现ping指定IP的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

EpisodeOne12892021-02-28
Python

python 列表转为字典的两个小方法(小结)

这篇文章主要介绍了python 列表转为字典的两个小方法(小结)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

出泥的鱼16532021-07-25
Python

python直接访问私有属性的简单方法

下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

Python教程网5152020-09-03
Python

使用NumPy和pandas对CSV文件进行写操作的实例

今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

qq_2468356113602021-03-05