-
Notifications
You must be signed in to change notification settings - Fork 0
shunfengzero/-shunfeng
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
--------
1. 通过运行com.sf.spider包下的Test.java的main方法
进行爬数据,并且将数据存入到数据库中;
2. 通过运行com.sf.poi包下的poi.java的main方法,将
数据从数据库读出并放入Excel表中。
---------
本爬虫设计了两种get请求,封装在HttpClient.java中,一种是可以传入代理ip,
通过创建代理ip池,当用线程池进行爬虫的时候,速度过快容易被封,
所以使用构建ip池来防止ip被封,因为购买代理ip需要付费,因此
没用此方法,不过核心代码展示出来了;另一种不需要传入ip,用的就是
本机的ip,通过User Agent,禁Cookie,睡眠时间3秒来防止被封。
----------
在获取书的详细信息的时候用到了线程池。
-------
保护就是以上说过的通过:
一. 构建一个ip池切换;
二. 1.User Agent轮换
2.禁Cookie
3.设置大于3s的抓取间隔
About
爬虫豆瓣书籍信息
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published