Spark——实验四:从HBASE建立RDD

该实验详细介绍了如何在Ubuntu Kylin 14.04环境下,通过命令行和Eclipse平台进行HBase到RDD的数据操作。实验涵盖了创建HBase表、配置Spark、编写读写HBase数据的Scala程序,并在Eclipse中运行和打包这些程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 实验目的

  学习从hbase库建立RDD数据结构的主要技术。

二. 实验内容

  1)基于ubuntukylin14.04(16)通过命令行建立hbase程序,完成hbase到RDD实验。
  2)基于ubuntukylin14.04(16)通过eclipse平台运行hbase程序,完成hbase到RDD实验。
  参考http://dblab.xmu.edu.cn/blog/1316-2/

三. 实验步骤及结果分析

 1. 基于ubuntukylin14.04(16)通过命令行建立hbase程序

  版本说明:ubuntukylin14.04(16)=hadoop集群(hadoop2.6.0版本)+hbase伪分布式(hbase1.1.2版本)+Scala2.11.8+Spark2.1.0+sbt0.13.15+Scala IDE for eclipse4.7.0+sbt eclipse插件(全局安装)

 1.1 创建hbase表

  首先启动Hadoop集群和HBase,进入hbase shell,输入create 'student','info'命令创建student表,输入describe 'student'命令可以查看,可以逐条输入以下命令往Student表中写入一个学生记录,然后输入scan 'student'命令查看。
put 'student','1','info:name','Xueqian'
put 'student','1','info:gender','F'
put 'student','1','info:age','23'
在这里插入图片描述
在这里插入图片描述

 1.2 配置Spark

  因为程序运行时需要使用HBase的lib目录下的一些jar包,所以通过以下命令将其拷贝到Spark中。
cd /usr/local/spark/jars
mkdir hbase
cd hbase
cp /usr/local/hbase/lib/hbase*.jar ./
cp /usr/local/hbase/lib/guava-12.0.1.jar ./
cp /usr/local/hbase/lib/htrace-core-3.1.0-incubating.jar ./
cp /usr/local/hbase/lib/protobuf-java-2.5.0.jar ./
在这里插入图片描述

 1.3 编写程序读取HBase数据

  要让Spark读取HBase,就需要使用SparkContext提供的newAPIHadoopRDD API将表的内容以RDD的形式加载到Spark中。
  ①创建SparkOperateHBase.scala代码文件(代码见文末),输入以下命令进行操作。
cd /usr/local/spark/mycode
mkdir hbase
cd hbase
mkdir -p src/main/scala
cd src/main/scala
vim SparkOperateHBase.scala
在这里插入图片描述
  ②创建simple.sbt配置文件,输入cd /usr/local/spark/mycode/hbase命令和vim simple.sbt命令来创建,内容如下,其中scalaVersion对应的是安装的Scala版本号,spark-core对应的是安装的Spark版本号,hbase-client、hbase-common、hbase-server对应的是安装的HBase版本号。

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
libraryDependencies += "org.apache.hbase" % "hbase-client" % "1.1.2"
libraryDependencies += "org.apache.hbase" % "hbase-common" % "1.1.2"
libraryDependencies += "org.apache.hbase" % "hbase-server" % "1.1.2"

在这里插入图片描述
  ③检查文件结构,如下所示即为正确。
在这里插入图片描述
  ④将程序打包。在/usr/local/spark/mycode/hbase这个目录中输入sbt package命令进行打包。
在这里插入图片描述
在这里插入图片描述
  ⑤将程序运行。输入spark-submit --driver-class-path /usr/local/spark/jars/hbase/*:/usr/local/hbase/conf --class "SparkOperateHBase" /usr/local/spark/mycode/hbase/target/scala-2.11/simple-project_2.11-1.0.jar命令将生成的jar包通过 spark-submit 提交到 Spark 中运行。
在这里插入图片描述
  运行成功后的输出中会有如下一行结果。
在这里插入图片描述

 1.4 编写程序向HBase写入数据

  ①创建SparkWriteHBase.scala代码文件(代码见文末),输入以下命令进行操作。
cd /usr/local/spark/mycode/hbase
vim src/main/scala/SparkWriteHBase.scala
在这里插入图片描述
  ②将程序打包。在/usr/local/spark/mycode/hbase这个目录中输入sbt package命令进行打包。
在这里插入图片描述
  ③将程序运行。由于刚才已经编写了另一个SparkOperateHBase.scala代码文件,所以在运行命令时,可以通过–class后面的名称参数来决定运行哪个程序。
  输入spark-submit --driver-class-path /usr/local/spark/jars/hbase/*:/usr/local/hbase/conf --class "SparkWriteHBase" /usr/local/spark/mycode/hbase/target/scala-2.11/simple-project_2.11-1.0.jar命令将生成的jar包通过 spark-submit 提交到 Spark 中运行。
在这里插入图片描述
  在HBase sh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗卿°

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值