一、项目要求
二、项目所需数据
使用爬虫对拉勾网进行爬取,爬取和python有关的数据。同时对数据进行处理,把薪资处理成int型,取中间值。
三、配置虚拟机
结合原本教学中已经配置好的三台虚拟机,之后创建第四台虚拟机hadoop004
之后修改IP地址、主机名、建立映射关系等。
同时使用zookeeper让Hadoop004加入原本的集群中,但是我没配,就没有图了。
四、flume日志采集(使用负载均衡)
过程:把data.txt上传到虚拟机中,同时使用flume监听另一个txt文件,使用重定向,将data.txt文件中的内容写入到这个txt文件中,将内容上传到HDFS中。
hadoop001的文件,和另外两台不一样。有需要的可以留言。
分别在01、02、03使用命令启动,先启动02和03
文件内容写入python.txt
cat pydata.txt >>python.txt