首先需要对目标网站进行分析,具体的分析这里不详细介绍。目标网站;豆瓣某个电影评论页面 https://movie.douban.com/subject/1292052/reviews,这个电影是肖申克的救赎。网页没有使用什么特殊的加载方式,所有的评论数据都在当前的源码中。翻页:
https://movie.douban.com/subject/1292052/reviews?start=0
https://movie.douban.com/subject/1292052/reviews?start=20
https://movie.douban.com/subject/1292052/reviews?start=40
以此类推,修改start的值就可以实现翻页,数字为电影的ID,如果想要抓取不同的电影评论,只需要替换掉电影ID即可。
1.settings.py配置文件
import os
BOT_NAME = 'douban'
SPIDER_MODULES = ['douban.spiders']
NEWSPIDER_MODULE = 'douban.spiders'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent': 'User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'
}
# 注册自定义中间件SeleniumMiddleware
DOWNLOADER_MIDDLEWARES = { <