
Scrapy实战篇
xiaotwins1
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy实战篇(一)之爬取链家网成交房源数据(上)
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求,大方向就是我们想拿到南京地区的房源成交信息,但是具体的细节信息,我们需要从网页来看,,我们直接在浏览器中输入以下的网...转载 2018-06-18 01:31:40 · 1989 阅读 · 3 评论 -
Scrapy实战篇(二)之爬取链家网成交房源数据(下)
在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件import pymongoclass MongoPipeline(object): collection = 'lianjia_house' #数据库collection名称 def ...转载 2018-06-18 01:32:30 · 592 阅读 · 2 评论 -
Scrapy实战篇(三)之爬取豆瓣电影短评
今天的主要内容是爬取豆瓣电影短评,看一下网友是怎么评价最近的电影的,方便我们以后的分析,以以下三部电影:二十二,战狼,三生三世十里桃花为例。由于豆瓣短评网页比较简单,且不存在动态加载的内容,我们下面就直接上代码。有一点需要注意的是,豆瓣短评的前几页不需要登录就可以看,但是后面的内容是是需要我们登录才能查看的,因此我们需要添加自己的cookie。我们新创建一个项目,就叫comment吧。项目代码it...转载 2018-06-18 01:34:24 · 728 阅读 · 0 评论 -
Scrapy实战篇(四)之周杰伦到底唱了啥
从小到大,一直很喜欢听周杰伦唱的歌,可是相信很多人和我一样,并不能完全听明白歌词究竟是什么,今天我们就来研究一下周董最喜欢在歌词中用的词,这一小节的构思是这样的,我们爬取周杰伦的歌词信息,并且将其进行分词,来看一下什么样的词出现的频率最高,我们将这一整个过程分为两部分,前一部分是抓取,后一部分是分析,分析部分将在数据可视化里面进行处理。分析既然是抓取歌词信息,那么最好的地方就是那些音乐平台了,由于...转载 2018-06-18 01:37:31 · 292 阅读 · 0 评论 -
Scrapy实战篇(五)爬取京东商城文胸信息
创建scrapy项目scrapy startproject jingdong填充 item.py文件在这里定义想要存储的字段信息import scrapy class JingdongItem(scrapy.Item): content = scrapy.Field() creationTime = scrapy.Field() productColor = scrapy...转载 2018-06-18 01:38:44 · 501 阅读 · 0 评论 -
Scrapy实战篇(六)之Scrapy配合Selenium爬取京东信息(上)
在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷。我们在京东搜索页面输入关键字进行搜索的时候,页面的返回过程是这样的,它首先会直接返回一个静态的页面,页面的商品信息大致是30个,之所以说是大致,因为有几个可能是广告商品,之后,当我们鼠标下滑的使用,京东后台使用Ajax技术加载另外的30个商品数据,我们看...转载 2018-06-18 01:39:18 · 590 阅读 · 0 评论 -
Scrapy实战篇(七)之Scrapy配合Selenium爬取京东商城信息(下)
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息。下面就使用selenium加PhantomJS来实现之前的相同的逻辑。这里需要修改的就是spider.py文件,其余的部分并不需要做出修改,我们给phantomjs添加一个User-Agent信息,并且设...转载 2018-06-18 01:39:55 · 384 阅读 · 0 评论 -
Scrapy实战篇(八)之简书用户信息全站抓取
相对于知乎而言,简书的用户信息并没有那么详细,知乎提供了包括学习,工作等在内的一系列用户信息接口,但是简书就没有那么慷慨了。但是即便如此,我们也试图抓取一些基本信息,进行简单地细分析,至少可以看一下,哪些人哪一类文章最受用户欢迎,也可以给其他人一些参考不是。我们整体的思路是这样的:从某一个大V开始,抓取它的相关信息,并且提取出它的全部的关注者url,对于每一个url进行请求,提取关注者的个人信息和...转载 2018-06-18 01:40:56 · 631 阅读 · 0 评论