Requests-Cache爬虫缓存
简述
Requests模块的扩展功能,通过Requests发送请求来生成相应的缓存数据。当Requests重复向同一个URL发送请求的时候,Requests-Cache会判断当前请求是否已产生缓存,若已有缓存,则从缓存里读取数据作为响应内容;若没有缓存,则向网站服务器发送请求,并将得到的响应内容写入相应的数据库里。
减少网络资源重复请求的次数,不仅减轻了本地的网络负载,而且还减少了爬虫对网站服务器的请求次数,这也是解决反爬虫机制的一个重要手段。
安装
windows环境,在cmd命令窗口下:pip install requests-cache
安装成功,验证,
cmd命令行,进入python环境,输入如下命令:
import requests_cache
requests_cache.__version__
具体执行如下:
在Requests中使用缓存
缓存机制由install_cache()方法实现:
语法:
install_cache()参数说明:
参数 | 说明 |
---|---|
cache_name | 默认值为cache,这是对缓存的存储文件进行命名 |
backend | 设置缓存的存储机制,默认值为None,即默认sqlite数据库存储 |
expire_after |