Impala系统架构理解

1 impalad(含3个模块,执行hbase或hdfs中的数据,数据的底层存储为hdfs)

        当用户通过用户接口提出查询或分析请求时,Impala会选择一个Impalad实例作为协调者(Coordinator)来负责整个查询过程的协调。这个协调者Impalad会与StateStore进行交互,获取集群中其他Impalad实例的健康状态位置信息,以便选择最靠近数据所在DataNode的那个节点上的Impalad来执行任务。

        一旦协调者Impalad确定了执行查询的Impalad实例,它会将查询任务分发给这些实例进行并行计算。这些执行任务的Impalad实例会根据查询的执行计划,直接在HDFS上读取数据并进行计算。执行完毕后,它们会将结果返回给协调者Impalad,由协调者汇总并返回给客户端。

        这也就意味着一个Impalad进程可能不仅作为协调者分发任务,还可能作为接受者接收并执行来自其他Impalad的任务,这取决于集群的负载和任务的分布。

2 StateStore(和Hive元数据、hdfs namenode放在一起)

        2.1 Hive元数据

        帮助impala理解sql语句,包含了Hive表的结构、分区、列等信息,这些信息对于Impala来说是透明的,因为Impala是基于Hive的大数据实时分析查询引擎,它直接使用Hive的元数据库Metadata。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值