- 博客(7)
- 收藏
- 关注
原创 jar包形式运行MapReducer代码
在我们平时运行MapRuducer代码中,往往更倾向于直接在eclipse中直接运行,而在很多业务生产过程中,需要我们以jar包的形式在集群中运行。所以,今天笔者就讲解一下如何打jar包来运行程序。以一个小的案例来进行说明。MapReducer实现WordCount其中的代码笔者就不赘述了,在后面的学习博客中,笔者会详细讲代码分享出来,这里只是讲解如何打jar包:1.选择对应的代码包2...
2019-01-01 18:34:11
1078
原创 单机版WordCount的代码实现
在学习MapReduce的时候,我们遇到的最经典的题目就是WordCount,也是相当于一个学习MapReduce的入门案例。相当于我们学习Java的时候关于HelloWord的编程实现。这篇博客内容不多,主要分享一下单机版WordCount的代码实现,至于增强版的WordCount和其它有关于MapReduce的经典案例题目,笔者会在后面单独总结出来的。首先,代码实现功能是:***统计6...
2018-12-19 20:34:31
591
原创 HDFS的两大核心
HDFS的两大核心包括写数据和读数据,这是HDFS的一个重点,下面笔者就讲解一下两大核心的过程。同时,笔者也会讲解一下元数据的合并过程。写数据1.客户端向NameNode发送文件上传请求;2.NameNode进行一系列的检查:权限、文件的父目录是否已经存在。检查通过之后,允许上传;3.允许客户端上传;4.客户端发送真正的文件上传请求,请求包含一个重要的信息:文件的长度、大小;5.Nam...
2018-12-17 09:54:50
1652
原创 HDFS四大机制的总结
这篇文章主要就HDFS的四大机制来做一些较为详细的说明。HDFS的四大机制:心跳机制(heartbeat)、安全模式、副本存放策略(机架策略)、负载均衡。四大机制1.心跳机制(heartbeat):(1)hadoop是一个Master/Slave结构,Master中有NameNode和ResourceManager,Slave中有DataNode和NodeManager;(2)Maste...
2018-12-14 15:11:49
826
原创 HDFS的相关概念和特性
HDFS是分布式文件系统,英文全称是Hadoop Distributed File System,是一个用Java实现、分布式的、可扩展的文件系统。HDFS的主要功能是做存储用的,把每一份数据创建多个副本、做复制,默认的副本数是3份。整体设计思路大文件被切割为小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理。每个小文件做冗余备份,并且分散到不同的服务器中,做到高可靠不丢失。...
2018-12-11 10:02:53
759
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人