python 制作网站筛选工具(附源码)_Python

python 制作网站筛选工具(附源码)

2021-08-27 00:39懷淰メ Python

平常工作生活中，boos可能会给我们很多网站取提取信息，这些网站有的无法响应，有的404，有的501…真的需要所有网站都访问再提取信息吗？今天写一个小工具用于筛选网站中能访问的网站，在此仅举一例，即状态码为200。

一．思路

1.整体思路

python 制作网站筛选工具(附源码)

2.代码思路

python 制作网站筛选工具(附源码)

思路很简单，就是用python发送请求，提取响应体中的状态码加以判断，最后保存到本地txt文本中，以实现网站信息的筛选。

二．撰写代码

				?

									import time

									import requests

									import urllib3

									from concurrent.futures import threadpoolexecutor

									#取源文件中的网址并且去重

									def get_url(old_file):

									  with open(old_file,'r',encoding='gbk')as f:

									    urllist=list(set(f.readlines()))

									    return urllist

									#主体，发送请求，通过异常捕获判断能否响应，通过状态码判断网闸能否正常访问

									def request(url):

									  url=url.strip()

									  #构造请求头信息

									  headers = {

									    'connection': 'keep-alive',

									    'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/78.0.3904.108 safari/537.36'

									  }

									  try:

									    #忽略证书安全警告

									    urllib3.disable_warnings(urllib3.exceptions.insecurerequestwarning)

									    r=requests.get(url,headers=headers,timeout=10,verify=false)#timeout设置超时时间，我设置了10s，使用verif=false忽略sll认证

									    if r.status_code==200:

									      cost_time=r.elapsed.total_seconds()#计算访问耗时

									      print(url,' ----->【能访问】访问耗时:\033[35;46m{:.2f}s\033[0m'.format(cost_time))

									      can_access_save_to_txt(url)

									    else:

									      print(url,' ----->不能访问,状态码为:\033[31;44m{}\033[0m'.format(r.status_code))

									  except:

									    print(url, ' ----->不能访问,原因：\033[31;44m不能响应\033[0m')

									#将能访问的网址保存到new_file

									def can_access_save_to_txt(result):

									  result=result.strip()

									  #筛选出不是.apk的url,此判断可以不加

									  if not result.endswith('.apk'):

									    with open(aim_file,'a')as f:

									      f.write(result+'\n')

									def main():

									  s_time=time.time()

									  #使用线程池，创建四条线程。

									  pool=threadpoolexecutor(max_workers=4)

									  urls=get_url(orign_file)

									  for url in urls:

									    pool.submit(request,url)

									  pool.shutdown()

									  e_time=time.time()

									  sum_time=int(e_time-s_time)

									  if sum_time>60:

									    print(f'\033[38;46m 程序正常执行结束退出！共耗时:【{sum_time//60}分钟】 \033[0m')

									  elif sum_time/60>1:

									    print(f'\033[38;46m 程序正常执行结束退出！共耗时:【{sum_time//60*60}小时】 \033[0m')

									if __name__ == '__main__':

									  orign_file=r'e:\test.txt'

									  #筛选后能访问的网址

									  aim_file="./data/test_can_access.txt"

									  #筛选后不能访问的网址

									  main()