'【Python网络爬虫笔记】requests模块'

2020-03-23

学习资源：中国大学MOOC Python网络爬虫与信息提取北京理工大学计算机学院嵩天

安装requests模块

我使用的是Anaconda 3，其中自带了requests模块供我们使用。如果没有requests模块的话，只需要以管理员身份打开cmd，输入命令pip install requests即可。

requests模块的7个主要方法

方法	说明
requests.request()	构造一个请求，是支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML网页提交删除请求，对应于HTTP的DELETE

1.requests.request()
语法
requests.request(method, url, **kwargs)
参数说明
(1)method：请求方式，包括GET, HEAD, POST, PUT, PATCH, DELETE, OPTIONS。
(2)url：拟获取页面的URL链接。
(3)**kwargs：控制访问的参数，共13个，均为可选项。

**kwargs参数	说明
params	字典或字节序列，作为参数增加到URL中
data	字典、字节序列或文件对象，作为Request的内容
json	JSON格式的数据，作为Request的内容
headers	字典，HTTP定制头
cookies	字典或CookieJar，Request中的cookie
auth	元组，支持HTTP认证功能
files	字典，传输文件
timeout	设定超时时间（单位：秒）
proxies	字典，设定访问代理服务器，可以增加登录认证
allow_redirects	True（默认）或False，重定向开关
stream	True（默认）或False，获取内容立即下载开关
verify	True（默认）或False，认定SSL证书开关
cert	本地SSL证书路径

2.requests.get()
语法
requests.get(url, params=None, **kwargs)
参数说明
(1)url：拟获取页面的URL链接。
(2)params：URL中的额外参数，字典或字节流格式。
(3)**kwargs：12个控制访问的参数。

3.requests.head()
语法
requests.head(url, **kwargs)
参数说明
(1)url：拟获取页面的URL链接。
(2)**kwargs：12个控制访问的参数。

4.requests.post()
语法
requests.post(url, data=None, json=None, **kwargs)
参数说明
(1)url：拟更新页面的URL链接。
(2)data：字典、字节序列或文件，Request的内容。
(3)json：JSON格式的数据，Request的内容。
(4)**kwargs：12个控制访问的参数。

5.requests.put()
语法
requests.put(url, data=None, **kwargs)
参数说明
(1)url：拟更新页面的URL链接。
(2)data：字典、字节序列或文件，Request的内容。
(3)**kwargs：12个控制访问的参数。

6.requests.patch()
语法
requests.patch(url, data=None, **kwargs)
参数说明
(1)url：拟更新页面的URL链接。
(2)data：字典、字节序列或文件，Request的内容。
(3)**kwargs：12个控制访问的参数。

7.requests.delete()
语法
requests.delete(url, **kwargs)
参数说明
(1)url：拟删除页面的URL链接。
(2)**kwargs：12个控制访问的参数。

requests模块的2个重要对象

在这里插入图片描述
Response对象包含服务器返回的所有信息，也包含请求的Request信息。下表是Response对象的属性：

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.appartment_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

下面针对Response的编码进行说明。
r.encoding：如果header中不存在charset，则认为编码为ISO-8859-1，r.text根据r.coding显示网页内容。
r.apparent_encoding：根据网页内容分析出的编码方式，可以看作是r.encoding的备选。

爬取网页的通用代码框架

下面是爬取网页的通用代码框架：

import requests


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()    # 如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '产生异常'


if __name__ == '__main__':
    url = 'http://www.baidu.com'
    print(getHTMLText(url))

HTTP协议

通过URL和命令管理资源，操作独立无状态，网络通道及服务器成为了黑盒子。
下面来讨论PATCH和PUT的区别。我们假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。我们的需求是用户修改UserName，其他不变。如果采用PATCH，则仅向URL提交UserName的局部更新请求。如果采用PUT，则必须将所有字段一并提交到URL，未提交字段被删除。PATCH的最主要好处是节省网络带宽。