前言:
本次针对待爬取数据是由动态网页技术加载出的情形进行分析,在之前的实战案例中,爬取的数据内容都是随着URL变化来实现页面的跳转,而动态加载的形式使得我们原本可以在页面上看到的内容却在源码中找不到。这时,就需要使用另一种分析页面的方式进行爬虫的编写。
实战案例:爬取京东商品的用户评论
首先打开京东,进入某一指定商品页面,本次选择华为P30的商品信息页面
链接地址:https://item.jd.com/100004404920.html#comment
下拉页面,找到评论信息:
可以看到在这条商品页面中有很多信息元素,于是右键选择查看网页源码,试图寻找用户的评论信息。
然而,在源码信息中,并未找到与评论相关的标签,所以得出结论:评论是由动态页面加载出来的!
依旧进入开发者模式,选择Network,查看加载的全部内容,寻找评论的加载页面。