
Spider
爬虫学习
因吉
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
beautifulsoup4的使用
文章目录引入1 创建BeautifulSoup对象2 对象种类致谢 引入 beautifulsoup是一个可以从HTML或者XML文件提取数据的Python库,在Python爬虫中,主要使用其查找、提取功能。 以下给出beautifulsoup4和lxml解析器的pip安装命令: pip install beautifulsoup4, lxml -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com原创 2020-06-10 18:06:58 · 837 阅读 · 0 评论 -
Python3实现HTTP请求
文章目录1 urllib实现1.1 完整请求与响应模型的实现1.2 请求头headers处理 1 urllib实现 关于urllib、urllib2和urllib3的区别可以查看。python3中,urllib被打包成一个包,所拥有的模块如下: 名称 作用 urllib.request 打开和读取url urllib.error 处理request引起的异常 urllib.parse 解析url urllib.robotparser 解析robots.txt文件 1.1原创 2020-06-08 23:38:38 · 17570 阅读 · 0 评论