自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

lin1270473045的博客

原创基于腾讯云API的资源管理和调度方案

等待申请的Vcore资源+已经申请正在分配的Vcore资源 < 剩余可用的Vcore资源，等待申请的mem+已经申请正在分配Mem资源 >= 剩余可用Mem，则扩容（mem资源差/192)+1台机器，不能超过限制的弹性增加的总task节点数。执行腾讯云api扩容前先判断当前是否有正在优雅缩容中的节点（因有任务未完成，没有缩容但是不接受新任务的节点），最终实际扩容的节点=需要扩容的节点-释放的优雅缩容中的节点。2. 本身脚本的执行和对各种关键数据的获取、处理、匹配以及整个流程的执行1分钟左右是够的。

2025-03-13 14:08:24 1057

原创 5个单例模式详解

单例模式十分简单但是应用非常广泛。所以学好单例模式是必要的

2017-12-24 23:28:58 210

原创 masterHA切换机制（手绘）

2017-12-24 21:50:24 352

原创 sparkContext的构建的过程（手绘）

2017-12-24 21:49:49 364

原创 spark-on-yarn模式讲解（手绘）

2017-12-24 21:49:04 412

原创 spark stage阶段划分算法（手绘）

2017-12-24 21:48:18 996

原创 Spark 的transformation和action操作

1.前言： RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Action（执行）：触发Spark作业...

2017-12-21 18:01:20 5510

原创 Spark运行原理架构图（手绘）

2017-12-21 17:51:32 1547

原创 Spark-wc（word count）运行架构原理图（纯手绘）

2017-12-21 17:48:44 544

原创 Spark RDD简介及RDD在Spark中的地位

1.Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。 2.RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Worker节点上，从而让RDD中的数据可以被并行操作。（分布式数据集） 3.RDD...

2017-12-21 17:43:36 401

原创安装Spark(完全分布式部署--Standalone)

1.将Spark解压并上传至/opt目录下 tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz -C /opt/ 2.修改环境变量 vi /etc/profile export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin source ...

2017-12-20 17:45:30 463

原创第一章 Flink基础与实战

Apache Flink是一个分布式流处理框架，专为有状态计算设计，支持无界流（实时）与有界流（批处理）的统一处理。其核心优势在于低延迟（毫秒级）、高吞吐量（百万级事件/秒）和Exactly-Once状态一致性。流批一体：同一套API处理实时流与历史批数据（如同时支持流批）精确状态管理：通过Checkpoint机制实现故障恢复与数据一致性事件时间语义：支持基于事件时间的窗口计算，解决乱序数据问题容错机制：分布式快照（Snapshot）保障任务容错性实时数据分析（如电商用户行为监控）

2025-04-10 19:22:37 683

原创 Redis高QPS解析、对比及备忘

例如，当用户程序读取网络数据时，内核需先将数据从网卡设备读取到内核缓冲区，再拷贝到用户缓冲区。：数据就绪后，内核将内核缓冲区的数据复制到用户空间的缓冲区。：大数据量场景下（如 Redis 处理大 Key），从内核到用户空间的拷贝可能占整个 I/O 延迟的 60% 以上。：Redis 读取客户端请求时，需等待内核将网络数据拷贝到用户空间，再由主线程处理命令。数据直接从内核缓冲区传输到目标（如 Socket），跳过用户空间拷贝。将内核缓冲区映射到用户空间，用户程序直接访问，减少一次拷贝。

2025-03-13 18:41:09 271

原创用hive客户端更改hive表元数据后，spark上查询表，变更未同步

2. 在hive客户端修改表元数据后执行修改hive表属性：spark.sql.sources.schema.part.0的操作。1. 尽量在spark客户端修改表元数据。

2023-11-02 18:30:35 391

原创 awk

awk awk是一个强大的文本分析工具。相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，（空格，制表符）为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk -F '{pattern + action}' {filenames} 支持自定义分隔符支持正则表达式匹配支持自定义变量，数组 a[1] a[to...

2019-09-03 01:19:04 149

原创 sed的使用心得

扩大查找范围，缩小匹配，替换该替换的，留下想留下的

2019-09-03 01:15:41 190

原创 linux 文本处理命令

cut：显示切割的行数据f：选择显示的列s：不显示没有分隔符的行d：自定义分隔符sort：排序文件的行n：按数值排序r：倒序t：自定义分隔符k：选择排序列u：合并相同行f：忽略大小写sed：行编辑器sed [options] 'AddressCommand' file ... -n: 静默模式，不再默认显示模式空间中的内容 ...

2019-09-03 01:05:11 154

原创 linux 的正则表达式

匹配操作符 \ 转义字符 . 匹配任意单个字符 [1249a]，[^12],[a-k] 字符序列单字符占位 ^ 行首$ 行尾| 连接操作符(,) ...

2019-09-03 00:09:00 139

转载数据预处理四（数据规约）

阅读目录前言主成分分析法 - PCA PCA基本步骤探索性因子分析法 - EFA EFA基本步骤小结回到顶部前言这部分也许是数据预处理最为关键的一个阶段。如何对数据降维是一个很有挑战，很有深度的话题，很多理论书本均有详细深入的讲解分析。本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA)，并给出具体的实现步骤。...

2019-07-30 15:22:39 893

转载数据预处理三（数据标准化）

阅读目录前言规范化离散化小结回到顶部前言在进行缺失，异常处理之后，往往要对数据进行变换。变换有多种情况，主要是以下两种： - 规范化：对数据进行一定比例的缩放，让它实质落入某个具体区间。 - 离散化：将连续型数据转化为离散化。回到顶部规范化数据规范化非常容易实现，调用scale函数...

2019-07-30 15:21:22 553

转载数据预处理二（异常值处理）

阅读目录前言异常值处理小结回到顶部前言数据中如果有某个值偏离该列其他值比较离谱，那么就有可能是一个异常的值。在数据预处理中，自然需要把这个异常值检测出来，然后剔除掉，或者光滑掉，或者其他各种方法进行处理。需要注意的是，本文仅介绍最为基础的单维度异常检测及处理方法，而在实际应用中更多用到的是多维度异常检测，这部分得到时结合具体项目学习。回到顶...

2019-07-30 15:18:19 1265

转载数据预处理一（缺失值处理）

阅读目录前言缺失值处理小结回到顶部前言在对数据有了大致的了解以后，就需要对获取到的数据进行一个预处理了。预处理的过程并不简单，大致来说分成缺失值处理，异常值处理，数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice)回到顶部缺失值处理 ...

2019-07-30 15:16:54 1928

原创 shell脚本知识大全

#!/usr/bin/env bash# 定义变量your_name="linzhaopo"# 引用变量echo ${your_name}# 只读变量readonly your_namemyCompany="kailashtech"# unset 可以删除变量，语法，不能删除只读变量unset ${myCompany}# 运行shell是存在3种变量：# 1) 局部变量...

2019-07-08 17:36:57 412

原创 springboot简单说明

什么是Spring Boot？Spring Boot是在Spring的基础之上产生的(确切的说是在Spring4.0的版本的基础之上)，其中“Boot”的意思就是“引导”，意在简化开发模式，是开发者能够快速的开发出基于Spring的应用。Spring Boot含有一个内嵌的web容器。我们开发的web应用不需要作为war包部署到web容器中，而是作为一个jar包，在启动时根据web服务器的配置进...

2019-05-20 09:26:40 194

基于腾讯云API的yarn调度器切换

基于腾讯云API的yarn调度器切换

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除