自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 十一、CentOS7+JDK8虚拟机安装

确保虚拟机已安装CentOS 7系统,并具备网络连接权限。下载JDK 8的Linux版本安装包(通常为。)将JDK 8安装包上传至CentOS 7虚拟机的目标目录,例如。格式),推荐从Oracle官网或OpenJDK官方渠道获取。使用SFTP工具(如FileZilla)或命令行工具(如。如需为所有用户配置环境变量,可将上述环境变量添加到。重新登录或重启系统后生效。解压后会生成一个类似。

2025-06-11 14:44:40 324

原创 十、Kafka安装配置与操作

1、Kafka依赖Zookeeper管理集群元数据。

2025-06-11 14:42:56 225

原创 九、Spark SQL临时视图与数据查询操

一、临时视图操作:1、创建临时视图:2、视图访问:3、视图删除:二、数据查询操作:1、全字段查询:2、指定字段查询:3、去重查询:4、条件查询:5、结果排序:6、模糊查询:7、范围查询:8、嵌套查询:9、组合查询:三、实际操作:1、数据准备:2、查询示例:

2025-06-11 14:34:41 158

原创 八、Spark SQL与MySQL交互及数据处理操作

确保Spark环境中包含MySQL JDBC驱动。下载对应版本的驱动(如。遇到复杂类型(如JSON)时,建议在MySQL中预处理或使用Spark的。Spark的写入操作默认自动提交,如需事务控制需借助第三方库(如。将MySQL数据注册为临时视图进行SQL查询。将DataFrame写入MySQL,支持。参数加载或放入Spark的。对于大数据量操作,指定。

2025-06-10 15:08:33 249

原创 七、数据读取和分类计数

rdd3.map(lambda x:(x[1],x[3])).distinct().filter(lambda x:x[3]=="女").count()(12)总分大于150分,math科目大于或等于70分,且年龄小于或等于20岁的学生的平均分是多少?12 宋江 25 男 chinese 50。12 宋江 25 男 english 70。12 吴用 20 男 chinese 50。12 吴用 20 男 english 50。13 李逵 25 男 english 70。12 吴用 20 男 math 50。

2025-06-10 15:02:22 221

原创 六、中文输入设置

若使用远程连接,需在客户端配置本地输入法映射。对于Mac宿主机的Spark虚拟机,需在系统偏好设置中启用“使用宿主输入法”选项。对于Windows虚拟机,可下载第三方中文输入法(如搜狗、百度)并安装。输入法候选框不显示时,检查虚拟机显示分辨率设置,或尝试切换窗口模式(全屏/窗口化)。确保Spark虚拟机已安装中文语言包,打开系统设置,选择“区域和语言”,添加中文输入法(如拼音或五笔)。定期更新虚拟机和输入法软件版本,避免兼容性问题。进入输入法配置界面,设置默认输入法为中文,调整快捷键切换方式。

2025-06-10 14:50:40 353

原创 五、Hadoop 伪分布集群环境搭建(8、9、10)

现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6,这种做法存在一定风险,因为可能影响到其它一些程序的使用。注意到,当 Python3.6 成功安装后,在/usr/bin 目录中会多出两个执行程序,即python3.6 和 python3.6m,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。从 PySparkShell 启动输出的提示信息可以看出,Spark2.4.8 使用的是 Python3.6,这也再次证明之前的配置是正确的。

2025-06-10 14:47:07 586

原创 五、Hadoop 伪分布集群环境搭建(6、7)

注意:如果新开一个终端窗体,需要在新终端重新执行一次 source 命令,除非重启动虚拟机才会全局有效。再新开一个 Linux 终端,在里面输入 jps 命令查看 HDFS 服务是否在运行,如果没有运行就要先将 HDFS 服务启动,正如在配置 HDFS 服务时所做的那样。2、接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均位于 conf 目录。正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取本地磁盘的文件。

2025-06-10 14:42:08 271

原创 五、Hadoop 伪分布集群环境搭建(4、5)

2、打开 yarn-site.xml 文件,在其中增加与内存检查相关的设置。因为虚拟机使用的内存和 CPU 资源受限,若要求必须有多少内存和 CPU 核的话,一些应用程序可能就无法正常启动,在生产环境这两个参数应去掉。3、配置完毕,可以启动 YARN 服务相关的程序,执行过程中会分别运行 ResourceManager和 NodeManager 这两个进程。1、考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin目录设置到 PATH 环境变量中。

2025-06-10 14:38:17 299

原创 五、Hadoop 伪分布集群环境搭建(3)

1、切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到里面的 JAVA_HOME 变量。配置文件修改完毕,首次运行之前还要初始化 HDFS 的文件系统,相当于平时的磁盘格式化操作,这个工作只执行一次。7、使用 jps 命令查看 HDFS 的进程是否正常运行,Java 进程列表中应有 NameNode、DataNode、SecondaryNameNode 这三个程序在运行,就说明 HDFS 启动正常。

2025-06-10 14:33:40 119

原创 五、Hadoop 伪分布集群环境搭建(2)

1、继续在 Linux 终端窗体中执行以下命令,因为远程登录服务 sshd 已经在运行,因此先在本机通过 ssh 命令执行一下远程连接,测试一下是否正常。通过 ssh-copy-id 命令,可以把本地主机的公钥复制到远程主机的 authorized_keys文件上,以便双方连接通信时使用。在本机通过 ssh 命令再次执行一下远程连接,测试一下是否能够免密登录,正常的话此时就不再需要输入密码,ssh 就能够连接成功。2、通过 ssh-keygen 生成免密登录所需的密钥信息。

2025-06-10 14:31:04 116

原创 五、Hadoop 伪分布集群环境搭建(1)

打开一个 Linux 终端,在其中执行以下命令,将 JDK 解压缩到/usr/local 目录中,并创建一个软链接指向 JDK 目录(相当于 Windows 的快捷方式)。3、保存退出 vi 编辑器,回到 Linux 终端测试一下 JDK 的配置是否正常。如果出现以下信息,说明 JDK 的配置是正确的,JDK 的安装也就完成了。修改/etc/profile 文件,在其中添加有关 JDK 的环境变量设置。

2025-06-10 14:27:27 125

原创 四、MobaXterm 远程连接工具

在 MobaXterm 窗体左上角找到 Session 图标,点击后会打开一个连接会话设置窗体,这个窗体列出了 MobaXterm 支持的各种远程连接类型,点击选择其中的第一项 SSH 图标,输入虚拟机的 IP 地址,然后指定登录所用的帐号 spark,再点击 OK 即可。输入连接所用帐户 spark 的密码(密码也是 spark)并回车,在弹出的是否要保存密码的窗体中,勾选“Do not show this message again”(不再显示本信息),然后点击 No 不保存登录密码。

2025-06-10 14:25:16 559

原创 三、Ubuntu 基本配置

继续输入下面的命令安装 vim,即 vi 编辑器的增强版,它支持一些更丰富的功能,如不同颜色的高亮代码显示等。Windows 自带的记事本是一个简单易用的文字编辑器,在 Ubuntu20.04 的桌面环境中也有一个类似的图形化“Text Editor”文本编辑器,可以在应用程序列表中找到并将它启动起来。输入下面的命令,将 Ubuntu20.04 自带的防火墙禁用掉,避免在远程终端连接时出现问题,包括运行 Hadoop 和 Spark 时也要禁用防火墙。

2025-06-10 14:18:58 102

原创 二、Ubuntu 虚拟机的安装

15、Linux 终端窗体启动后,在左侧任务栏的“Linux 终端”图标上点击鼠标右键,选择弹出菜单中的“Add to Favorites”将其固定在任务栏,这样以后经常使用 Linux 终端时,就可以直接点击任务栏中的快捷图标来打开它。设置完毕,点击下一步。Ubuntu20.04 操作系统的初始界面如图所示,第一次启动时会相继提示几个信息的设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip”和“Next”,直至最后一个窗体点击“Done”全部完成。

2025-06-10 14:14:32 455

原创 一、VMware 虚拟机安装

2、勾选“我接受许可协议中的条款”,点击下一步。3、安装位置可根据自己需求改变,点击下一步。·主机系统:windows10。1、打开安装包,点击下一步。4、取消勾选,点击下一步。9、打开虚拟机,安装成功。

2025-06-10 14:06:09 397

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除