HDFS和MapReduce核心思想

最新推荐文章于 2025-05-18 09:00:00 发布

star_fxx

最新推荐文章于 2025-05-18 09:00:00 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop学习文章标签： hadoop mapreduce HDFS

本文链接：https://blog.csdn.net/sinat_17161487/article/details/42994021

Hadoop是Apache下的一个开源分布式计算平台，以HDFS（Hadoop Distributed Filesystem）和MapReduce为其核心。为什么会出现这么个东西呢，“需求是最强大的驱动力”，在这个"big data"的时代，比如Facebook每天处理的新数据良就达到20TB，要处理海量数据就不能局限于传统数据库时代的做法了，我们可以把处理数据的任务分散到各节点（普通硬件设备），再把任务结果汇总返回到客户端——其核心思想也就是“分而治之”。做个比喻：要做全国的人口统计，只要把通知一层层传递下去，各区的相关部门就会把自己区域的人口统计好，再统一上报到国家统计局，统计局再把总数向全国公布。

Hadoop的设计思想来源于google发布的两篇论文：google-GFS(中文)，google-mapreduce（中文），理解了这两篇文章，也就大致明白hadoop是个什么玩意儿了。

一个HDFS集群由一个NameNode和若干个DataNode组成，Namenode是主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的datanode管理存储的数据。其读数据如图：

1.首先调用FileSystem对象的open方法，其实是一个DistributedFileSystem的实例
2.DistributedFileSystem通过rpc(远程过程调用协议)获得文件的第一批个block的locations，同一block按照重复数会返回多个locations，这些locations按照hadoop拓扑结构排序，距离客户端近的排在前面.
3.前两步会返回一个FSDataInputStream对象，该对象会被封装成DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方法，DFSInputStream最会找出离客户端最近的datanode并连接（hadoop的机架感知得到拓扑结构，并在该拓扑结构下进行自己的