
正则表达式分组
tsing_9521
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
正则表达式 贪婪匹配和惰性匹配 分组和去优先级
最近在学爬虫,用到正则的贪婪匹配和惰性匹配,findall方法分组优先匹配和去优先级, 举几个例子感受一下: import re #不分组,无优先级 print(re.findall('m.+?','ascxdcmmmmmdabnxamnx')) #惰性匹配,+匹配到一个即匹配成功 输出:['mm', 'mm', 'md', 'mn'] print(re.findall('m*?','ascxd...原创 2019-02-12 13:40:59 · 685 阅读 · 0 评论 -
python爬虫项目1:小说下载
最近在学爬虫,被动态网站,分布式什么的搞得头昏脑涨,所以先停下来巩固一下基础。先从小的完整的项目写起,代码小学生水平,接受批评… 目标: 爬取笔趣看这个网站的一本小说: 工具: requests模块,re模块,正则表达式 代码如下: import requests import re #目录url url='https://www.biqukan.com/1_1094/' #获取目录html re...原创 2019-02-19 11:34:40 · 404 阅读 · 0 评论 -
python爬虫项目2:爬取图片并保存
下载http://pic.yxdown.com/list/0_0_4.html网站图片并保存: 用到的库:requests,beautifulsoup import requests import re from bs4 import BeautifulSoup #设置初始url baseurl='http://pic.yxdown.com/list/' urls=[] #拼接前20页的url ...原创 2019-02-19 16:03:50 · 1380 阅读 · 0 评论