自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 深入解析 Spark:关键问题与答案汇总

本文深入探讨了Spark框架的核心问题与优化策略。首先介绍了性能优化的关键方法,包括资源配置、数据处理、算子优化等方面。针对常见的数据倾斜问题,详细分析了其成因和解决策略。文章还解析了RDD的宽窄依赖特性,列举了各类核心算子的使用场景与原理,并阐述了RDD的五大核心特性。此外,还总结了会产生shuffle操作的算子类型,比较了repartition和coalesce的异同点及其适用场景。最后,详细介绍了RDD的多种持久化方式及其特点,为Spark开发者提供了全面的技术指导。

2025-07-22 17:28:18 733

原创 [特殊字符] DolphinScheduler 踩坑实录:从权限地狱到 SQL 惊魂,我是如何逆袭的?

凌晨 3 点,服务器警报声划破夜空 —— 我负责的 ETL 任务又双叒叕挂了!看着控制台跳出的ClassNotFoundException,我狠狠拍了下桌子:这破 DolphinScheduler 怎么比女朋友还难哄?错误现场:创建租户时,日志突然爆红:当时我手心冒汗 —— 运维大佬说过,给 HDFS 根目录全权限,相当于在银行门口喊 “我密码是 123456”!逆袭攻略: 血泪教训:777 是魔鬼!后来我才知道,Hadoop 权限模型像层层关卡,精准授权才是王道。💥 致命错误:Cl

2025-06-18 08:42:14 398

原创 Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?

在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底层原理到实战场景,全面剖析 Hive 存储格式的奥秘,助你成为数据存储优化的高手。​。

2025-06-09 19:27:19 1023

原创 大数据处理中的隐藏杀手 —— 数据倾斜,你了解多少?

数据倾斜作为大数据处理中的一大难题,给我们的工作带来了诸多挑战。但通过深入了解其表现和成因,并掌握相应的解决方法,我们便能在数据的海洋中破浪前行。在实际工作中,我们要时刻保持警惕,对数据进行仔细的分析和预处理,合理运用各种优化手段,避免数据倾斜的发生。同时,随着技术的不断发展,相信会有更多更高效的解决方案出现,帮助我们更好地应对数据倾斜这一挑战,让大数据真正为我们创造价值。希望本文能为你在数据处理的道路上提供一些帮助,让我们一起在大数据的世界里探索前行!

2025-06-09 19:23:40 991

原创 Hive 性能优化全攻略:从入门到精通的 15 个核心技巧

小表 和 大表 join 时,小表写在 join 的左边,大表写在 join 的右边,将来 sql 语句会只走 maoJoin,mapJoin 不产生 shuffle 过程,所以速度查询比较快,不产生 shuffle 的原因是因为,它提前将小表的数据加载到了内存中。jvm重用就是一个虚拟机开启以后,执行多个task任务,再关闭。假如有两个大表,如何join速度快,就是创建两个分桶表表,把大表的数据导入进去,然后让分桶表和分桶表进行join,速度会快,当然在执行之前,需要开启smb join的设置。

2025-06-05 20:15:55 953

原创 MySQL 数据库深度剖析:事务、SQL 优化、索引与 Buffer Pool

MySQL 的 Buffer Pool 是 InnoDB 存储引擎的内存缓存区,用于暂存数据页和索引页。通过 LRU 算法管理热点数据,减少磁盘 I/O,显著提升查询性能。其大小可配置(建议物理内存的 50%-75%),是数据库性能调优的关键参数。索引是提高数据库查询效率的关键工具,而 B+Tree 是其底层最常用的数据结构。查询结构优化,避免全表查询,减少子查询的依赖。查询结构优化,避免全表查询,减少子查询的依赖。对索引进行优化确保查询字段存在索引。对索引进行优化确保查询字段存在索引。

2025-06-05 08:41:28 381

原创 解决resourcemanager有两个,但是都是standby的问题

假如你使用的hadoop版本是3.3.1 兼容 zookeeper 3.6.4 ,否则就会有问题。namenode 高可用没问题,resourcemanager的高可用有问题。hadoop3.1.6 需要兼容 zookeeper 3.4.10。

2025-05-20 08:37:17 214 1

原创 HDFS安全模式深度解析:为什么你的大数据集群“罢工“了?

想象一下,当你启动电脑时,操作系统会先进行一系列自检,确保所有关键组件都正常工作后才允许你登录使用。HDFS的安全模式就是类似的机制——它是NameNode启动时的一个特殊状态,在此期间:文件系统处于只读状态(无法创建、删除或修改文件)不进行块复制或删除操作NameNode会收集所有DataNode的块状态报告HDFS的安全模式不是bug,而是精心设计的保护机制。正如一位资深HDFS开发者所说:"安全模式是NameNode对你说'我还没准备好'的方式,强行让它工作只会导致数据灾难。

2025-05-14 19:11:30 1142

原创 Hadoop全分布式集群搭建指南:从零开始构建大数据处理平台

在大数据时代,Hadoop作为分布式存储和计算的基石,已经成为企业处理海量数据的首选方案。本文将手把手教你如何搭建一个完整的Hadoop全分布式集群,让你掌握企业级大数据平台的核心搭建技能。通过本文的详细指导,你已经成功搭建了一个Hadoop全分布式集群。但这只是大数据之旅的开始,接下来可以探索:YARN资源管理框架的集成Hive数据仓库的部署Spark on YARN的配置集群高可用(HA)方案实现大数据的世界已经向你敞开大门,现在就开始你的探索之旅吧!互动环节。

2025-05-14 08:32:28 955

原创 【手把手教学】Hadoop 3.3.1安装配置全攻略:5分钟搞定大数据环境搭建!

立即动手实践吧!遇到问题欢迎在评论区留言,我会一一解答。

2025-05-13 08:26:37 1187

原创 掌握sed命令:从基础查询到高级文本处理

sed是Linux文本处理的三剑客之一(grep、sed、awk),掌握它可以让你:高效处理大型文本文件批量修改配置文件自动化文本转换快速提取关键信息通过本文的学习,你已经掌握了从基础查询到高级替换的sed操作技巧。建议多加练习,将这些命令应用到日常工作中,逐步提升你的Linux文本处理能力。思考题:如何用sed命令将文件中所有包含"error"的行复制一份并追加到文件末尾?欢迎在评论区分享你的解决方案!

2025-05-10 16:40:51 448

原创 别再手动处理文本了!AWK 一键搞定,效率飙升

在 Linux 的工具世界里,AWK 绝对是一个让人惊艳的存在。无论是处理日志文件、分析数据,还是进行文本处理,AWK 都能大显身手。今天,就让我们一起走进 AWK 的神奇世界,看看它到底有多强大!

2025-05-09 20:10:40 615

原创 绝了!4 个杯子 2 分钟锁定十堆沙子中的 “变色王者”,二进制 YYDS!

你敢信吗?面对十堆一模一样的沙子,仅靠和,就能精准找出那堆溶解会变色的 “隐藏款”!这不是魔法,而是的超强逻辑在 “搞事情”!今天就带你解锁这个让面试官都直呼 “牛哇” 的解题神操作,烧脑又过瘾,错过血亏!

2025-05-08 20:13:32 445

原创 想玩转 Linux?这些核心技能你必须掌握!资深工程师带你飞

作为一个在 Linux 领域摸爬滚打多年的老鸟,我太清楚掌握核心操作技能对大家有多重要了!今天就把压箱底的干货掏出来,手把手教你 Linux 软件安装、虚拟机克隆、远程拷贝等超实用技能,让你在 Linux 世界里畅通无阻,面试时更是能脱颖而出,直接惊艳面试官!

2025-05-08 19:58:29 554

原创 Shell 编程入门:从基础到实战,轻松掌握运维利器!

除了广为人知的 Java、Scala、Python 和 SQL 等 “主力战舰”,还有一些 “小而精” 的语言,比如 HTML、JS、Linux Shell、Lua 脚本等,它们同样在各自的领域发挥着不可替代的作用。同时,Shell 也支持字符串的截取操作。同时,比较数字和字符串所使用的运算符是不同的,比较数字使用-eq等关系运算符,比较字符串使用=或==。Shell 编程中,grep、sed、awk被誉为 “三剑客”,它们在文本处理和数据筛选方面有着强大的功能,后续我们会专门探讨它们的用法。

2025-05-08 19:53:50 343

原创 安装虚拟机流程

如果出现这个截图,说明你的电脑上的虚拟化没开启,需要重启电脑,进入BIOS界面。每个电脑因为厂商不同,进入方式不同,联想是 Fn+ F12 或者 直接F12。会出现这个黑窗口,选择安装Centos7 回车即可。光标失去了,使用ctrl + alt 就可以出现。建议直接修改盘符,而不是浏览,以后都是。选择ios镜像文件的位置。密码尽量设置为: root。

2025-05-08 08:42:38 151

原创 HashMap 和 ArrayList 的存储原理及扩容规则

HashMap 是基于哈希表的 Map 接口实现,使用键值对(key-value)存储数据。

2025-05-08 08:09:22 419 1

原创 在Linux系统安装MySQL8.0

首先,我们要将MySQL8.0的安装包从上传到Linux系统中,可以建一个/opt/moudles 专门用来去存放安装包,还有/opt/installs 用接受解压后的文件。可以这么干:Y1u2n3h4e5!2.查询Linux中是否有数据库。exit 退出mysql客户端。3、依次安装所需服务。

2025-05-07 20:45:16 1170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除