Hadoop---(4)HBase（分布式存储系统）

最新推荐文章于 2023-07-12 10:00:00 发布

Mr Cao

最新推荐文章于 2023-07-12 10:00:00 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

分类专栏： hbase 大数据

本文链接：https://blog.csdn.net/qq1021979964/article/details/86705422

本文详细介绍了HBase，一个基于Hadoop的分布式存储系统，用于处理大规模非结构化数据。HBase提供了高可靠性和高性能，支持列式存储、动态扩展以及原子写操作。内容涵盖HBase的数据模型、物理存储、架构体系、Shell操作、Java API使用，以及HBase如何结合MapReduce进行批量导入等实战操作。通过本文，读者将深入理解HBase在大数据处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBASE

HBase（Hadoop Database），是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中海量数据。利用Zookeeper作为协调工具。

HMaster— HBase中仅有一个Master server。
HRegionServer—负责多个HRegion使之能向client端提供服务，在HBase cluster中会存在多个HRegionServer。
ServerManager—负责管理Region server信息，如每个Region server的HServerInfo(这个对象包含HServerAddress和startCode),已load Region个数，死亡的Region server列表
RegionManager—负责将region分配到region server的具体工作，还监视root和meta 这2个系统级的region状态。
RootScanner—定期扫描root region，以发现没有分配的meta region。
MetaScanner—定期扫描meta region,以发现没有分配的user region。

HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的方式来启动Jetty，因此可以通过web界面对HBase进行管理和查看当前运行的一些状态，非常轻巧。

4.1 为什么采用HBase？

HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方面读写你的大数据内容。

HBase是介于Map Entry(key & value)和DB Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache，但不仅仅是简单的一个key对应一个 value，你很可能需要存储多个属性的数据结构，但没有传统数据库表中那么多的关联关系，这就是所谓的松散数据。

简单来说，你在HBase中的表创建的可以看做是一张很大的表，而这个表的属性可以根据需求去动态增加，在HBase中没有表与表之间关联查询。你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。但是你需要注意HBase中不包含事务此类的功能。

Apache HBase 和Google Bigtable 有非常相似的地方，一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列，对于这样的功能在大项目中非常实用，可以简化设计和升级的成本。

4.1 数据模型

HBASE中的每一张表，就是所谓的BigTable。稀疏表。

RowKey 和 ColumnKey 是二进制值byte[]，按字典顺序排序；

Timestamp 是一个 64 位整数；

value 是一个未解释的字节数组byte[]。

表中的不同行可以拥有不同数量的成员。即支持“动态模式“模型

字符串、整数、二进制串甚至串行化的结构都可以作为行键
表按照行键的“逐字节排序”顺序对行进行有序化处理
表内数据非常‘稀疏’，不同的行的列的数完全目可以大不相同
可以只对一行上“锁”
对行的写操作是始终是“原子”的

1.列必须用‘族’(family)来定义

2.任意一列有如下形式

“族：标签”

其中，族和标签都可为任意形式的串

3.物理上将同“族”数据存储在一起

4.数据可通过时间戳区分版本

表是存放数据的。表由行和列组成

数据模型

Row Key: 行键，Table的主键，Table中的记录按照Row Key排序
Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version number
Column Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以有任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。

4.2 物理存储

Table 在行的方向上分割为多个HRegion，一个region由[startkey,endkey)表示，每个HRegion分散在不同的RegionServer中。（参数hbase.hregion.max.filesize）

4.3 架构体系

架构体系：

Client包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。

Zookeeper：
1. 保证任何时候，集群中只有一个runnning master。
2. 存贮所有Region的寻址入口。
3. 实时监控Region Server 的状态，将Region Server的上线和下线信息。
4. 存储HBase的schema，包括有哪些table，每个table有哪些column family。