
hadoop
叫我小蟹
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop基础知识总结(初代e目)
原创 2020-08-22 23:12:00 · 215 阅读 · 0 评论 -
日常复习之---zookeeper知识点总结
原创 2020-08-22 16:53:06 · 193 阅读 · 0 评论 -
hadoop组成之---Yarn
Yarn是分布式资源调度和任务监控平台,是用来合理分配网络、磁盘IO、内存、CPU资源的。每台机器的上的资源都是有限的,而且不尽相同,人们不能实时监控资源占用情况,会产生节点未合理利用的情况。此时,需要一个平台来实时监控每台机器的匀速资源,然后进行合理的任务分配;同时,还要做任务的进度监控工作,当前工作不能完成现在分配的任务时,平台会进行任务的再分配。...原创 2020-08-20 22:41:26 · 155 阅读 · 0 评论 -
Yarn原理加强之---MapReduce程序在Yarn上简易运行流程
1、提交job:客户端Client提交job到Yarn主节点ResourceManager上,ResourceManager有两个组件:一个是ApplicationMaster,用于管理所有applicaion,接收所有job;第二个是Sheduler:用于资源调度,管理集群资源、分配资源。2、启动NodeManager:NodeManager启动向,向ResourceManager汇报运算资源情况。3、分配jobID和工作IDL:ApplicationManager分配jobID,并分配默认原创 2020-08-20 22:21:07 · 479 阅读 · 0 评论 -
MapReduce原理之---分区、分组、切块、切片
分区和分组的区别:1、分区:一个分区就是一个任务;当数据量大,单个reducetask处理不了时,需要多个reducetask同时处理全部数据;partition调用HashPartitioner组件,获得区号;HashPartitioner.getPartition(nk,nv){nk.hashcode%numberReduceTasks;}分区能够保证同一个逻辑下的K到达同一个reducetask中,按照K进行全局聚合、排序、分组;保证处理全部数据;保证处理的数据不重复。2、分组:分组原创 2020-08-20 20:17:45 · 2722 阅读 · 0 评论 -
分布式资源调度和任务监控平台yarn之--yarn的配置
配置yarn(所有操作都在hadoop安装目录下进行;qi’dogn’zhi)1、cd /opt/apps/hadoop-3.2.1/etc/hadoop/目录下有一个yarn-site.xml,打开编辑模式2、yarn-site.xml中,增加编辑如下:```java<configuration><!-- Site specific YARN configuration properties --><!-- resource,manager主节点所在机器原创 2020-08-20 11:41:14 · 673 阅读 · 0 评论 -
图解MapReduce处理数据简易流程
(相比第一版稍有改动几个词)原创 2020-08-19 23:57:09 · 733 阅读 · 0 评论 -
MapReduce原理之---处理数据详细流程
1、任务切分:对文件进行逻辑切片,切片按照范围划分,默认128M一片。一个文件至少有一个切片,每个切片运行一个maptask,如果文件超过128M,同一个输入文件会有多个maptask运行;为减少资源浪费,如果最后一个切片大小小于1.1*128M,将不会被切分处理。2、输入对象:FileInputFormat.setInputPaths()方法,指定数据输入路径;输入目录中可以有单个或多个文件。读取数据、生成K-V对:由继承RecordReader的LineRecordReader类中的readLin原创 2020-08-19 23:53:14 · 942 阅读 · 0 评论 -
MapReduce内部数据处理流程(未完成)
MapReduce数据处理流程1、数据来源路径:FileInputFormat.setInputPaths(),输入目录中,可以有单个或多个文件;2、对原始数据进行处理、任务划分:(1)任务切片:切片是逻辑切片,非物理切片;(2)切片大小由输入文件的大小、文件数量和配置参数决定;(3)(集群中)默认128M一个任务切片,(本地模式)32M一个任务切片;(4)输入目录中文件数量决定运行的maptask数量,每一个输入文件至少有一个切片;每一个切片运行一个maptask;如果文件超过128M(或本地原创 2020-08-18 18:12:23 · 244 阅读 · 0 评论 -
MapReduce程序分析数据流程
分为两步(mapper和reducer):(1)Mapper端;(2)Reducer端。((3)启动类)核心思想:根据业务场景确定K,V。K的作用:分区、排序、分组、聚合维度;K、V都要实现Hadoop的序列化;Hadoop的序列化实现方式:read、write方法流程:1、任务切片划分:计算逻辑–>根据文件大小等2、根据逻辑启动maptask,maptask的个数决定map执行时的并行度3、原始数据处理:切片,task负责自己的数据,readline读取一行,得到KV,交给Mappe原创 2020-08-17 23:02:49 · 736 阅读 · 1 评论 -
HDFS原理加强之---HA(高可用)
1、HDFS基本设计架构中,对namenode过于依赖,存在单节点故障问题。(什么是单节点故障问题:通常分布式系统采用主从结构,一个主主节点连接多个从节点。主节点负责分发任务,从节点负责处理任务;当主节点发生故障时,会导致真各个系统发生故障,这种故障叫做单节点故障问题。2、HDFS中的HA机制:通过双namenode消除单点故障。(1)namenode的作用:记录元数据、日志,其他职责(副本维护、分发任务、负载均衡、监听心跳等)。(2)正常工作状态下,namenode处于active状态,当name原创 2020-08-16 23:35:15 · 294 阅读 · 0 评论 -
HDFS原理加强之---元数据管理和checkpoint
元数据存储位置和存储策略1、元数据:(1)元数据维护HDFS文件系统和虚拟访问目录的信息;namenode记录用户存储数据的数据元信息。(2)元数据包括:数据切块描述信息、副本个数、存储位置、切块大小、文件权限等。(3)元数据存储位置:/opt/hdpdata/data/current/BP-742774004-192.168.133.3-1597321931822/current/finalized/subdir0/subdir02、元数据的存储位置:(两种)(1)内存:元数据存储在内存对象原创 2020-08-16 22:16:56 · 333 阅读 · 0 评论 -
HDFS原理加强之---集群维护、上传数据和下载数据
集群维护(namenode和datanode之间的通信)具体流程如下:1、namenode启动,进行初始化;namenode启动时把最新的FsImage加载到内存中。<namenode里面有一个FsImage的目录结构,记录某一永久性检查点(Checkpoint)这个时刻的整个HDFS的元数据信息;还有一个edits,记录所有对HDFS的写操作。HDFS会定期对最近的FsImage和edits文件进行CheckPoint,CheckPoint发生后会将前一次CheckPoint后的所有edit原创 2020-08-14 23:37:16 · 299 阅读 · 0 评论 -
单点故障(转自:冻住丶不许走的博客)
什么是单点故障通常分布式系统采用主从模式,一个主机连接多个处理节点,主节点负责分发任务,而子节点负责处理业务,当主节点发生故障时,会导致整个系统发故障,我们把这种故障叫做单点故障。传统解决单点故障问题一般会多加一个备用主节点,备用主节点会发送一个ping包给主节点,主节点收到这个ping包后会给备用主节点相应一个ack字节包作为回应,备用主节点通过是否收到ack字节包来判断主节点是否正常运行,没有收到则则认为主节点已经故障并顶替主节点的位置。不过当出现网络震荡的时候导致主节点接受数据时丢失一部分数据转载 2020-08-13 23:03:28 · 459 阅读 · 0 评论 -
HDFS原理之---HDFS核心思想和组件架构
1、HDFS核心思想HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储,是hadoop的分布式文件系统。(1)数据存储在集群中的某台机器上,为保证数据安全,需要将这个数据进行物理切块存储,每一块的大小是128M(可根据机器的性能进行修改),将每一块分别存储到三台不同的机器上(三个副本)。(为什么是128M:根据统计,处理完一个文件的效率最优策略是1s,而普通计算机的io是100M左右,计算机的底层又是以二进制的形式存在的,所以默认128M符合大部分机器的处理情原创 2020-08-13 22:17:19 · 660 阅读 · 0 评论 -
hadoop特点与组成
1、hadoop解决两个方面的问题:(1)解决海量数据的存储问题,用到HDFS分布式存储系统,HDFS利用多台机器的存储空间进行存储。(2)解决海量数据的运算问题,用到MapReduce分布式编程框架,MapReduce利用多台机器的运算程序进行运算。2、hadoop组成:(1)HDFS分布式文件系统,对海量数据进行存储;(2)MapReduce分布式运算编程框架;(3)Yarn:资源调度系统和任务监控平台;检验机器的运算资源,并进行合理分配,分布式任务监控;(4)comments:工具,ha原创 2020-08-13 21:16:52 · 1368 阅读 · 0 评论