Python获取当前页面内所有链接的四种方法对比分析_Python

Python获取当前页面内所有链接的四种方法对比分析

2020-12-03 00:19罗兵 Python

这篇文章主要介绍了Python获取当前页面内所有链接的方法,结合实例形式对比分析了Python常用的四种获取页面链接的方法,并附带了iframe框架内链接的获取方法,需要的朋友可以参考下

本文实例讲述了Python 获取当前页面内所有链接的四种方法。分享给大家供大家参考，具体如下：

									'''

									得到当前页面所有连接

									'''

									import requests

									import re

									from bs4 import BeautifulSoup

									from lxml import etree

									from selenium import webdriver

									url = 'http://www.testweb.com'

									r = requests.get(url)

									r.encoding = 'gb2312'

									# 利用 re （太黄太暴力！）

									matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)

									for link in matchs:

									  print(link)

									print()

									# 利用 BeautifulSoup4 （DOM树）

									soup = BeautifulSoup(r.text,'lxml')

									for a in soup.find_all('a'):

									  link = a['href']

									  print(link)

									print()

									# 利用 lxml.etree （XPath）

									tree = etree.HTML(r.text)

									for link in tree.xpath("//@href"):

									  print(link)

									print()

									# 利用selenium（要开浏览器！）

									driver = webdriver.Firefox()

									driver.get(url)

									for link in driver.find_elements_by_tag_name("a"):

									  print(link.get_attribute("href"))

									driver.close()

注意：若页面中含有 iframe，则 iframe 内所包含页面的所有标签都无法用以上四种方法获得！！！此时则要：

									# 再打开所有iframe查找全部的a标签

									for iframe in soup.find_all('iframe'):

									  url_ifr = iframe['src'] # 取得当前iframe的src属性值 

									  rr = requests.get(url_ifr)

									  rr.encoding = 'gb2312'

									  soup_ifr = BeautifulSoup(rr.text,'lxml')

									  for a in soup_ifr.find_all('a'):

									    link = a['href']

									    m = re.match(r'http:\/\/.*?(?=\/)',link)

									    #print(link)

									    if m:

									      all_urls.add(m.group(0))