Skip to content

shunfengzero/-shunfeng

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

--------

1. 通过运行com.sf.spider包下的Test.java的main方法
   进行爬数据,并且将数据存入到数据库中;
2. 通过运行com.sf.poi包下的poi.java的main方法,将
   数据从数据库读出并放入Excel表中。
  
---------

本爬虫设计了两种get请求,封装在HttpClient.java中,一种是可以传入代理ip,
通过创建代理ip池,当用线程池进行爬虫的时候,速度过快容易被封,
所以使用构建ip池来防止ip被封,因为购买代理ip需要付费,因此
没用此方法,不过核心代码展示出来了;另一种不需要传入ip,用的就是
本机的ip,通过User Agent,禁Cookie,睡眠时间3秒来防止被封。
----------

在获取书的详细信息的时候用到了线程池。

-------
保护就是以上说过的通过:
一. 构建一个ip池切换;
二. 1.User Agent轮换
    2.禁Cookie
	3.设置大于3s的抓取间隔





















About

爬虫豆瓣书籍信息

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages