
爬虫
凝聚才华
种一棵树最好的时间是十年前,其次是现在。
很喜欢“毛竹”:毛竹4年也只不过长3厘米,5年后以每天足足30厘米的速度生长着。这样只用6周就可以长到15米
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫库(Requests-HTML)
爬虫库(Requests-HTMLRequests-HTML简述Requests-HTML安装请求方式数据清洗 Requests-HTML简述 Requests-HTML是在Requests的基础上进一步封装,两者都是由同一个开发者开发。Requests-HTML除了包含Requests的所有功能之外,还新增了数据清洗和Ajax数据动态渲染。 数据清洗是由lxml和PyQuery模块实现,这两个模块分别支持XPath Selectors和CSS Selectors定位,通过XPath或CSS定位,可以精准地翻译 2020-07-30 10:59:16 · 3313 阅读 · 0 评论 -
爬虫库(Requests-Cache爬虫缓存)
Requests-Cache爬虫缓存简述安装在Requests中使用缓存 简述 Requests模块的扩展功能,通过Requests发送请求来生成相应的缓存数据。当Requests重复向同一个URL发送请求的时候,Requests-Cache会判断当前请求是否已产生缓存,若已有缓存,则从缓存里读取数据作为响应内容;若没有缓存,则向网站服务器发送请求,并将得到的响应内容写入相应的数据库里。 减少网络资源重复请求的次数,不仅减轻了本地的网络负载,而且还减少了爬虫对网站服务器的请求次数,这也是解决反爬虫机制的一个原创 2020-07-29 15:06:26 · 4742 阅读 · 3 评论 -
爬虫库(Requests)
Requests1. Requests简述2. Requests安装方法3. 请求方式(GET和POST)4. 复杂的请求方式5. 文件下载 1. Requests简述 很使用的Python的一个HTTP客户端库,与Python3自带的标准库Urllib相比: ①具备Urllib的所有功能; ②开发使用上,语法简单易懂; ③兼容Python2和Python3,具有较强的适用性; 2. Requests安装方法 ①直接pip安装(简单,方便,又快乐) windows系统:pip install request原创 2020-07-29 14:31:10 · 1578 阅读 · 0 评论 -
爬虫库Urllib(代理IP等)
Python3中-爬虫库Urllib代理IP1. urllib.request.ProxyHandler()2. 演示一下代理IP去访问目标网址吧 代理IP 1. urllib.request.ProxyHandler() ①代理IP的原理:本机---->大力IP---->访问的网站(服务器) 文字描述:本机先访问代理IP,再通过代理IP地址访问互联网,这样网站(服务器)接收到的访问IP就是代理IP地址。 ②由Urllib提供urllib.request.ProxyHandler()方法可动态设原创 2020-07-28 16:40:22 · 14016 阅读 · 0 评论 -
爬虫库Urllib(urllib.request.Request与urllib.request.urlopen)
Python3中-爬虫库Urllib概述urllib.request1. urllib.request.Request2. urllib.request.urlopen3. urllib.request.urlopen和urllib.request.Request实例演示 概述 问:Urllib能做什么? 答:常用在爬虫开发、API(应用程序编程接口)数据获取、测试; 问:Urllib需要安装吗? 答:Python自带的标准库,直接引用(import)即可; 问: Urllib、Urllib2和Urlli原创 2020-07-27 17:38:07 · 2585 阅读 · 0 评论