python利用requests库模拟post请求时json的使用教程_Python

我们都见识过requests库在静态网页的爬取上展现的威力，我们日常见得最多的为get和post请求，他们最大的区别在于安全性上：

1、get是通过url方式请求，可以直接看到，明文传输。

2、post是通过请求header请求，可以开发者工具或者抓包可以看到，同样也是明文的。 3.get请求会保存在浏览器历史纪录中，还可能会保存在web的日志中。

　　两者用法上也有显著差异（援引自知乎）：

1、get用于从服务器端获取数据，包括静态资源(html|js|css|image等等)、动态数据展示(列表数据、详情数据等等)。

2、post用于向服务器提交数据，比如增删改数据，提交一个表单新建一个用户、或修改一个用户等。

对于post请求，我们可以通过浏览器开发者工具或者其他外部工具来进行抓包，得到请求的url、请求头（request headers）以及请求的表单data信息，这三样恰恰是我们用requests模拟post请求时需要的，典型的写法如下：

python" id="highlighter_703172">

1	`response=requests.post(url=url,headers=headers,data=data_search)`

　　由于post请求很多时候是配合ajax（异步加载）技术一起使用的，我们抓包时，可以直接选择xhr（xmlhttprequest）-ajax的一种对象，帮助我们滤掉其他的一些html、css、js类文件，如下图所示（截取自chrome）：

python利用requests库模拟post请求时json的使用教程

双击点开，就可以在页面右边的headers页下看到general、response headers、request headers、form data几个模块，

其中general模块能看到请求的方法和请求的url以及服务器返回的状态码（200（成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。）

python利用requests库模拟post请求时json的使用教程

而response headers部分，可以看到缓存控制、服务器类型、返回内容格式、有效期等参数（笔者截图所示，返回的为json文件）：

python利用requests库模拟post请求时json的使用教程

request header模块是非常重要的，可以有效地将我们的爬取行为模拟成浏览器行为，应对常规的服务器反爬机制：

其中content-type、cookie以及user-agent字段较为重要，需要我们构造出来（其他字段大多数时候，不是必须）

python利用requests库模拟post请求时json的使用教程

由于cookie字段记录了用户的登陆信息，每次都不同，且同一个cookie存在一定有效期，当我们结合selenium来组合爬取页面信息时，可以通过selenium完成网页的登陆校验，然后利用selenium提取出cookie，再转换为浏览器能识别的cookie格式，通常代码如下所示：

									cookies = driver.get_cookies() #利用selenium原生方法得到cookies

									ret=''

									for cookie in cookies:

									  cookie_name=cookie['name']

									  cookie_value=cookie['value']

									  ret=ret+cookie_name+'='+cookie_value+';' #ret即为最终的cookie，各cookie以“;”相隔开

紧接着，我们需要构造headers部分（即请求头），我们挑重点的几个字段进行构造：

									headers={

									  'host':'**********.com',

									  'referer':'http://****************/check/index.do',

									  'user-agent':'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/70.0.3538.110 safari/537.36',

									  'x-requested-with':'xmlhttprequest',

									  'content-type':'application/x-www-form-urlencoded; charset=utf-8',

									  'cookie':ret #需要登陆后捕获cookie并调用

									}

我们在网页中点击“确定”按钮，网页则会异步加载，后台发出post请求，取到json文件并渲染到网页表单中，比如我们根据需求填写了部分字段（这些就是我们post请求的data信息），然后观察后台的form data信息：

python利用requests库模拟post请求时json的使用教程

后台form data 捕获到的data参数如图：

python利用requests库模拟post请求时json的使用教程

类似于字典格式，其中condition键对应的value较为复杂——列表中包含字典，字典中还有部分函数，其中字符串中既有单引号又有双引号交错。属于关键信息，page决定了网页的翻页在第几页，而rows则表示每次请求的数据限定的最大行数。

本例中问题的关键是，如何把想要的信息（譬如来源于excel配置文件）传递到condition字段对应的值内，确保form data信息灵活可配置，大抵用法如下：

									data_search={

									  'page':1,

									  'rows':15,

									  'condition':

									  """[\

									    {"column":"bpm_def_name","exp":"like","value":""},\

									    {"column":"delete_status","exp":"=","value":0},\

									    {"column":"to_char(to_date(create_date,'yyyy-mm-dd hh24:mi:ss'),'yyyy-mm-dd')","exp":">=","value":"yyyy-mm-dd"},\

									    {"column":"to_char(to_date(create_date,'yyyy-mm-dd hh24:mi:ss'),'yyyy-mm-dd')","exp":"<=","value":"yyyy-mm-dd"},\

									    {"column":"check_type","exp":"like","value":"2"},\

									    {"column":"locked_status","exp":"=","value":0},\

									    {"column":"delete_status","ordertype":"default","orderkey":"","direction":"asc"}\

									  ]""",  #考虑到该字段已经有单引号、双引号，所以只能用三引号来包住这部分代表字符串

									  'additionalparams':'{}'

									}

									data_search_condition=json.loads(data_search['condition'])  #将字符串转为列表，方便更新列表（列表中每个元素都是一个单个字典）元素

									#刷新字典

									data_search_condition[0]['value']=businessname

									data_search_condition[2]['value']=str(startdate)

									data_search_condition[3]['value']=str(enddate)

									data_search['condition']=json.dumps(data_search_condition) #将列表重新转回字符串，作为data_search字典中键“condition”对应的“value”，然后更新字典

上述代码中，data_search其实为字典对象，其键“condition”对应的值（三引号包住部分）为字符串，本质是json格式，我们如何对这部分动态传参呢？

这里需要用到python json包中常用的loads和dumps方法：

1、json.loads()是将json格式对象，转化python可识别的字典对象。解码python json格式，可以用这个模块的json.loads()函数的解析方法。

2、json.dumps()是将一个python数据类型列表进行json格式的编码解析，可以将一个list列表对象，进行了json格式的编码转换。

3、json.dump和json.dumps很不同，json.dump主要用来json文件读写，和json.load函数配合使用。

上面实例中，就是将data_search['condition']（json，字符串）转换为列表，然后根据列表定位到底层的每个dict字典，最后根据dict[key]=value的方法进行更新（传参），更新完之后的列表，再通过json.dumps反向转回字符串，这样整个data_search字典中参数就可以灵活配置，通过外部引入了。

剩下的工作就很简单，交给强大的requests包完成就好，示例代码如下：

									def get_page(data_search,url): #定义页面解析的函数，返回值为json格式

									  try:

									    response=requests.post(url=url,headers=headers,data=data_search)

									    if response.status_code==200:

									      return response.json()

									  except requests.connectionerror as e:

									    print('error',e.args)

我们还可以把json格式内容存到本地（data.json)格式文件或者txt文本，并按照特定缩进（indent=4)进行规则排版，格式化内容，此时要用到json.dump()方法，示例代码如下:

									for pagenum in range(1,1000):

									  data_search['page']=str(pagenum)

									  pagecontent=get_page(data_search=data_search,url=url)

									  with open('data.json','w',encoding="utf-8") as json_file:

									    json.dump(pagecontent,json_file,ensure_ascii = false,indent=4)

									  if pagecontent==none:

									    print("无符合条件的单据！") 

									    time.sleep(3)

									    sys.exit(0)