
Hadoop
文章平均质量分 73
数据科学&大数据技术
大数据本科在读
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
EXCEL数据导入HIVE
四、将test.txt文件上传至虚拟机的Linux环境中,同时在hive里新建Test数据表(已经建库),输入建表语句的时候务必注意对应字段的类型必须相同。本文将论述如何将Windows本地的excel表数据,导入到虚拟机Linux系统中的Hadoop生态中的Hive数据仓库中。至此,完成excel表数据传入Hive的所有操作。二、将清洗后的excel表的数据另存为txt格式,也可以在hive中输入HQL语句查看。原创 2024-06-17 16:14:13 · 1925 阅读 · 0 评论 -
Windows下安装使用Squirrel
SQuirrel SQL Client是一个用Java写的数据库客户端,用JDBC统一数据库访问接口以后,可以通过一个统一的用户界面来操作MySQL PostgreSQL MSSQL Oracle等等任何支持JDBC访问的数据库。从网址http://www.squirrelsql.org/下载相应版本的squirrel的安装jar包,比如下载squirrel-sql-4.1.0-standard.jar。至此,Windows系统中的squirrel安装完成,并且已经成功配置与HBASE的连接。原创 2024-03-28 12:48:05 · 1334 阅读 · 1 评论 -
Phoenix伪分布安装
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。tables 命令,列出所有表到客户端界面(注意: 通过该客户端展示出来的表都是 通过 Phoenix 客户端创建的,通过其他方式创建的表在此处不显示),作为HBase内嵌的JDBC驱动。5.将phoenix的bin目录下配置文件hbase-site.xml文件中的内容追加到hbase的配置文件hbase-site.xml中(为了允许启用二级索引。原创 2024-03-27 11:16:19 · 578 阅读 · 0 评论 -
Kerberos 5安装与使用
Kerberos中一些常见概念需要了解:1.KDCKey Distribute Center):密钥分发中心,负责存储用户信息,管理发放票据。2.Realm:Kerberos所管理的一个领域或范围,称之为一个Realm。3.Rrincipal:Kerberos所管理的一个用户或者一个服务,可以理解为Kerberos中保存的一个账号,其格式通常如下:primaryinstancerealm4.keytab:Kerberos中的用户认证,可通过密码或者密钥文件证明身份,keytab指密钥文件。原创 2024-03-18 09:32:46 · 1375 阅读 · 0 评论 -
HIVE伪分布安装
五、安装元数据库 Hive 高版本启动时,需要配置元数据库,如果采用其它数据库,请酌情替换对应步骤,这里采用 MYSQL 作为元数据库。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,类似于RDBMS(关系型数据库,如MySQL、Oracle、PgSQL),并提供类SQL的查询功能。一、将apache-hive-2.3.9-bin.tar.gz上传到主节点/opt/download目录下,切换到该目录,解压到/opt/software/hadoop目录下。原创 2024-03-10 13:56:38 · 1444 阅读 · 1 评论 -
Spark与Hive整合
实现上述步骤包含两点:1.MetaStore需要存在并开机。2.Spark知道MetaStore的IP和端口号。成功进入后,输入 spark.sql("show databases").show() 查看数据库。执行以下命令将连接驱动包拷贝到spark的jars目录下,若是完全分布式安装,则三台机器都要进行拷贝。打开虚拟机登录节点,执行以下命令来拷贝hive-site.xml到所有的spark安装服务器上面去。Spark连接上Hive的MetaStore。P.s.若安装Hive时启动过该服务则略过。转载 2024-02-21 14:43:16 · 501 阅读 · 0 评论 -
HBase2.1伪分布安装
HBase是依赖HDFS的分布式、可伸缩的Hadoop数据库,在HBase上操作的数据存储在HDFS中,HBase是NoSQL型数据库,它与Hive不同,Hive是数仓,底层是依赖mapreduce处理数据,有延迟性,适合离线计算;而HBase是可以处理海量的实时数据的。参照我前面写的Hadoop伪分布安装完成后,需要下载:hbase-2.1.0-bin.tar.gz(CSDN上有该资源,我无法重复上传),HBase也必须建立在Hadoop正常启动的基础上。至此,所有的HBase的伪分布的环境配置完毕。原创 2024-02-17 15:45:04 · 667 阅读 · 1 评论 -
Hadoop3.3伪分布式安装部署
初始化之前,cd /opt/hadoop-3.3.2/sbin/,进入 sbin 目录,在 start-dfs.sh,stop-dfs.sh, start-yarn.sh,stop-yarn.sh 四个文件顶部添加参数,之后就可以使用 root 账号登陆 hdfs 和 yarn 了。#如果本机没有登录过其他机器时,本地是没有/root/.ssh 文件夹的,只需要:ssh master 登录一次,就会自动创建了。配置该文件,指定HDFS保存数据的副本数量,伪分布模式下只有一个节点,所以此处为:1。原创 2024-02-07 21:38:11 · 1626 阅读 · 1 评论 -
启动Hive时报hdfs安全模式相关错误以及解决办法
2.1 查看上述日志中的提示信息:Safe mode will be turned off automatically in 5 seconds.2.接着执行健康检查,删除损坏的块(block):hdfs fsck / -delete。1.首先退出安全模式:hadoop dfsadmin -safemode leave。执行后再次启动hive即会成功,该方法也适用于其他Hadoop生态组件。五秒后再次启动hive,该HDFS安全模式会自动关闭。原创 2024-01-17 14:17:25 · 1218 阅读 · 0 评论