
网络爬虫
杜冰林
记笔记用的,要是曾经在网上搜的资料触犯作者权益,请及时告知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫--Python资料页
背景调研: robots.txt sitemap 详见www.robots.org #section1 对用户BadCrawler禁止爬取 User-agent:BadCrawler Disallow:/ #section2 两次请求要在五秒上,否则额封禁ip1分钟 User-agent:* Crawl-delay:5 Disallow:/trap #s原创 2017-03-23 11:35:54 · 330 阅读 · 0 评论 -
selenium + PhantomJS 浏览器后台抓取
PhantomJs是一个‘无头’’=浏览器, 下载地址:http://phantomjs.org/download.html 下载之后最好把bin目录设置成环境变量 他会把网站加载到内存并执行页面上的JavaScript,但是他不会向用户展示网页的图形界面(后台运行浏览器),可以处理cookie,JavaScript,header以及任何你需要做的事情 注意: 部分公司内网阉割,会报出转载 2017-11-15 11:39:18 · 869 阅读 · 0 评论