python爬虫系列课程1:初识爬虫
一、爬虫的概念
网络爬虫(又被称为网页蜘蛛、网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
二、通用爬虫和自定义爬虫的区别
通用爬虫可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取方式没有实现。自定义爬虫可以针对某一种网站自行开发符合要求的爬虫。
三、开发语言
只要能够发送HTTP(S)请求的任何编程语言都是可以完成爬虫程序的,例如java、php、JavaScript等,但是论爬虫开发效率一般都指的是python语言。
四、爬虫流程
聚焦爬虫代码执行流程
流程说明
1、向起始地址发送请求,并获取响应
2、对响应结果进行数据提取
3、如果获取的数据是新的网站地址则继续发送请求并获取响应
4、如果获取的数据为页面需要的数据则完成数据保存