- 博客(469)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 从数仓建设到标签开发:我的大厂面试复盘实录
"最近面试了几家互联网大厂的大数据的岗位,经历了从数据仓库建设到标签开发,再到性能优化的全方位'拷问'。今天就把这些实战经验整理出来,希望能帮到正在准备面试或对数据开发感兴趣的朋友们!"先把面试题放在前面,以下问题和答案都是根据个人经验和技能总结整理的,我通过了该公司的面试,顺利拿到了offer,回答基本没什么问题,供大家参考。
2025-08-04 22:14:39
762
原创 揭秘 Doris 高并发点查询:原理与优化
Apache Doris作为一个性能卓越的国产OLAP的数据库,其在高并发点查询场景下,展现出了强大的优势,其QPS能达到数万+的地步(在资源不是瓶颈的情况下,甚至能达到6w+)。今天,就让我们深入探究 Doris 是如何实现高并发点查询的。
2025-08-03 20:08:35
504
原创 行情越来越差,大厂offer却越来越多?且看6月大数据就业offer数据!
6月整体就业人数不算太多,但是整体就业薪资越来越高,小伙伴拿到的offer整体还不错。因为行情差,涤生的同学进阶的学员的比例也越来越高,目前涤生的社招同学65%+是企业在职进阶的,企业工作过的,纯小白学员大概只有35%不到,越来越多的工作过的同学加入一起学习交流,进阶的同学整体的薪资涨幅还是比较大的。很多条件差的同学,我基本能劝退的劝退了,转行那句话,不仅要看短期收益也要看长期收益。每个找我咨询的同学,我给的每句话都是认真负责的(虽然是咨询是免费的,但是建议是客观的),基本我不建议转行的同学,我甚至不建议大
2025-08-03 17:39:36
964
原创 从焦虑到上岸:我的二三线城市数据开发求职之路
作为一名在边陲二线省会城市深耕数据领域的从业者,我深知本地求职的痛点:机会少、竞争隐蔽、对 “落地能力” 的要求远高于纯技术深度。今天想通过我的经历,分享在求职寒冬中如何凭借精准准备和外部助力成功上岸,也特别感谢涤生大数据在关键时刻的指导与支持。
2025-07-26 16:05:43
865
原创 从8h到40min的极致并行优化:Spark小数据集UDTF处理的深度实践与原理剖析
在大数据领域,Spark以其卓越的并行处理能力著称。但面对小数据集的极致并行需求时,默认优化策略往往成为瓶颈。本文将深入剖析如何通过精准控制分区策略,将仅170条数据的表拆分成170个独立Task并行执行,实现100%的并行度,并详细解释背后的分布式计算原理。
2025-07-23 21:55:57
997
2
原创 Doris 物化视图:原理、使用及常见问题处理
在大数据分析领域,数据量的快速增长和复杂查询的频繁出现,对查询性能提出了严峻挑战。Doris 的物化视图(Materialized View)应运而生,成为提升查询效率的有力工具。简单来说,物化视图是将预先计算(根据定义好的 SELECT 语句)的数据集,存储在 Doris 中的一个特殊的表。与普通视图不同,普通视图仅包含计算逻辑,本身不存储数据,而物化视图既包含计算逻辑也包含数据实体。物化视图根据 SQL 定义计算并存储数据,并根据特定策略进行周期性或实时性更新。它可以直接被查询,也能将查询透明改写,
2025-07-17 21:09:28
829
原创 支付宝智能助理用户会话实时统计:Flink定时器与状态管理实战解析
业务背景:支付宝智能助理上线后,用户只需从支付宝首页轻松下拉即可体验,因此得到了大量用户的使用和反馈。业务需求:现在业务方想统计每个用户在智能助理近30min、近1h、近6h的会话数和会话时长,并随着时间推移,每1分钟更新一次。额外诉求:如果用户在30min、1h、6h后没有行为数据,则将会话数和会话时长清零。
2025-07-17 21:05:51
441
原创 主动学习+高效输出:3个月校招上岸大数据开发
本硕末流211天坑专业。我本科和代码完全无关的天坑,研究生做的ai+天坑,就写过一点python。几乎零基础,0开发经验。六月中找到ds,九月初开始投递,九月下旬拿到第一个大厂offer。中间学校的事情还耽误了一周多(返修论文)。投递总数60,中大厂面试14场,只有一个没通过,通过率90+%。(我拒了一堆二面,拿了满意的直接开摆,最后是3个中大厂offer,都是sp)。目前已提前实习五周,氛围非常好,landing看起来也肯定丝滑,没问题。mt说过好多次,觉得我积极,然后对我完全放心,肯定没啥问
2025-07-10 23:38:40
1060
原创 25年校招即将开始,暑期实习同学应如何备战?
距离25年秋招开始不到一个月的时间了,有很多同学现在正在暑期实习,因为每个人去的部门的业务不同,大家可能会有一些焦虑,比如部门没有转正hc、每天都在干杂活对自己没有成长、学习不到知识等。首先大家要知道实习的目的,最重要的目标一定是留用!留用!留用!其次才是提升个人能力、丰富技能!可能有些同学认为这想法太直接了,然而,如果你真正参与过秋招,就会深刻体会到它的残酷竞争。在这种环境下,抓住提前拿到offer保底测试最重要的。今天以去年我们去年暑期实习同学的经历来跟大家聊聊如何顺利拿到留用offer!
2025-07-10 23:35:59
1321
原创 Apache Spark 4.0:将大数据分析提升到新的水平
Apache Spark 4.0 带来了 PySpark 画图、多态 UDTF、改进的 SQL 脚本和 Python API 更新,以增强实时分析和可用性。 Apache Spark 4.0 于 2025 年发布,它通过增强性能、可访问性和开发者生产力的创新,重新定义了大数据处理。在 Databricks、Apple 和 NVIDIA 等机构的 400 多位开发者的贡献下,Spark 4.0 解决了数千个 JIRA 问题,并引入了诸多变革性功能:PySpark 原生画图、Python 数据源 API、多态用
2025-07-06 21:09:25
1119
原创 大数据开发实战:如何做企业级的数据服务产品
数据服务通常以解决方案的形式进行组织,面向一个应用场景的所有数据需求或数据内容可以通过一个解决方案进行封装,统一对外服务。一个数据需求或数据接口以一个数据服务实例的形式存在于解决方案之下。下游消费方可以通过统一API进行数据消费,通过传入解决方案code+数据服务code来获取指定的数据内容及数据服务能力进行消费。
2025-07-02 23:07:34
648
原创 Spark基于Bloom Filter算法的Runtime Filter Join优化机制
Apache Spark 3.3.0 引入了一个显著的特性——行级运行时过滤(Row-Level Runtime Filtering),该特性旨在提高查询性能,优化数据处理效率。在这一特性中,一种重要的实现方式是布隆过滤器(Bloom Filter)。布隆过滤器是一种空间效率极高的数据结构,能够快速判断一个元素是否在一个集合中。通过利用布隆过滤器,Spark 可以在执行连接操作时,动态地过滤掉不必要的数据行,从而减少数据传输和计算的开销。具体来说,布隆过滤器可以在子查询或大表连接的过程中,快速排除掉那些
2025-06-23 22:09:05
1027
原创 互联网行情还能好转吗?卷麻了,5月份大数据就业数据出炉了!
5月一部分是因为五一的原因吧,耽误了一周,一部分是机会确实相对来说没有四月多。涤生五月就业人数也不是很好14人,当然主要是四月上岸人数不少。校招薪资依旧可观,社招依旧很卷,卷麻了,卷学历卷能力,卷口才,卷薪资,底层的码农其实就是抢别人饭碗。如果你学历好仍然找工作很容易,但凡你有个计算机(比如网络工程,信息与计算科学,大数据,数据科学等)相关专业,技术准备差不多找工作仍然很容易。或者但凡你学历很好有个985,211找工作也很容易。最怕的就是学历差背景差能力还差的同学,找工作是真的头疼。
2025-06-23 22:04:46
1247
原创 26年秋招马上来了,这些校招攻略值得收藏
随着6月份结束,大部分公司的暑期实习已经开始接近尾声,暑期实习既然已经宣告了结束,那么接下8月份秋招就要陆续开始了,相信大家是几家欢喜几家愁,有的同学正在实习准备转正,有的同学课程都没学完,对于学历背景一般,简历上实习经历不够丰富的同学,一定一定要好好准备,否则影响秋招后悔都来不及。
2025-06-16 22:07:44
1076
原创 FlinkCDC-Hudi数据实时入湖原理篇
面对海量数据开发场景,一种支持存储多种原始数据格式、多种计算引擎、高效的元数据统一管理的存储方式能极大的提高开发效率。
2025-06-16 22:04:42
768
1
原创 深度剖析阿里巴巴 OneData 体系:数据驱动业务的基石
在当今大数据时代,企业数据呈爆发式增长,数据类型愈发多样,涵盖结构化的交易数据、半结构化的日志数据,以及非结构化的文本、图像、视频数据等。与此同时,企业业务不断拓展,业务线日趋复杂,不同业务部门各自为政进行数据建设,形成众多数据孤岛。以电商企业为例,商品部门关注商品信息数据,营销部门聚焦用户行为与营销活动数据,物流部门则侧重于物流配送数据,各部门数据缺乏统一规划与整合,导致数据重复存储,存储空间浪费严重,且数据一致性与准确性难以保障。
2025-06-16 21:57:11
882
原创 小心踩坑!Hive SQL中这些易错点你必须知道
在大数据分析领域,Hive SQL扮演着至关重要的角色。它为我们提供了便捷的数据查询和处理方式,Hive SQL的语法看似简单,但稍不留神就会掉进“陷阱”。你是否经历过这样的抓狂时刻:跑了一小时的脚本突然报错,发现是字段类型不匹配?查询结果莫名其妙少了一半数据?分析展示报表的数据怎么突然变成空了?今天,就让我们一起来梳理一下这些常见的“坑”,帮助大家在使用Hive SQL时更加得心应手,帮你精准避坑!
2025-06-12 17:12:17
492
原创 apisix + argorollout 实现蓝绿发布II-线上热切与蓝绿发布控制
本次主题主要目的是为大家讲解蓝绿发布,但是发现文档和内容太长了,对此将文档拆分成了两部分,视频拆分成了好几部分,这样大家刷起来没疲劳感。
2025-06-03 22:07:31
878
原创 Apache Doris 在数据仓库中的作用与应用实践
在当今数字化时代,企业数据呈爆炸式增长,数据仓库作为企业数据管理和分析的核心基础设施,其重要性不言而喻。而 Apache Doris,作为一款基于 MPP(Massively Parallel Processing,大规模并行处理)架构的高性能实时分析型数据库,在数据仓库领域正发挥着举足轻重的作用。
2025-06-03 22:04:26
1221
原创 面试加分秘籍:校招数据倾斜场景下的SQL优化方案
校招面试经常会问大家有没有过调优的经验,相信大家的回答基本都是往数据倾斜和小文件问题这两方面回答,对于数据倾斜相信大部分同学对热key打散或null值引发的倾斜已经非常熟悉,但这些内容面试官也是听腻了,希望大家在面试时候讲一些高大尚的案例,在描述的时候一定要有背景,有解决方案,最后结果,毕竟数据倾斜不会无故产生,一定是有业务背景的,这里给大家分享一种数据倾斜优化案例。
2025-05-28 22:03:49
446
原创 Kafka Streams 和 Apache Flink 的无状态流处理与有状态流处理
Kafka Streams 和 Apache Flink 与数据库和数据湖相比的无状态和有状态流处理的概念和优势。在数据驱动的应用中,流处理的兴起改变了我们处理和操作数据的方式。虽然传统数据库、数据湖和数据仓库对于许多基于批处理的用例来说非常有效,但在要求低延迟、可扩展性和实时决策的场景中,它们显得力不从心。本文以Kafka Streams和Apache Flink为例,探讨无状态和有状态流处理的关键概念。这些原则适用于任何流处理引擎,无论是开源引擎还是云服务引擎。
2025-05-24 21:04:49
1572
原创 一文带你吃透大厂高频面试题:行转列&列转行问题
首先,行转列&列转行问题其实是两个问题:行转列问题和列转行问题,并且这两种问题的解决思路也是不一样的。 常见的行转列问题大概有两种形式,如下:
2025-05-21 23:36:48
764
原创 4月份30+同学拿到大数据offer,他们都是啥条件?
卷,是这个时代的特征和主题,只要你是个人,你就逃不过。普通人卷工作、卷能力、卷人脉关系,连pdd抢单都得卷网络卷手速。如果卷不死就朝死里卷,要么卷别人,要么被别人卷,现在的大环境一言难尽个,互联网行情也是江河日下。整体岗位变少,其他行业高学历的人才还在不断涌入,市场在逐步淘汰学历差并且能力差的人。
2025-05-21 23:27:44
526
原创 轻松拿下SQL校招&社招面试,这些知识点你一定要会!
很多人在刷SQL题之前,或者刷SQL题的过程中,总是有各种疑问,我这里总结了一下,大家的疑惑主要在三个点:刚开始刷SQL,怎样刷或者按照什么顺序刷,效率最高呀?我天天刷SQL,感觉也刷了好多题目了,但还是感觉有些SQL写不出来,遇到新的类型题目还是不会我SQL刷了两周了(或者一个月了),但是还是会经常遇到不会的题目,怎么办?
2025-05-14 22:35:54
725
原创 带你玩转 Flink TumblingWindow:从理论到代码的深度探索
在深入探讨 TumblingWindow 之前,我们先来了解一下流处理或流计算中“窗口”的基本概念。在数据流中,源会持续不断地生成数据,因此计算最终值是不可行的。
2025-05-09 00:11:44
1266
原创 26届秋招收割offer指南
26届暑期实习已经陆续启动,这也意味着对于26届的同学们来说,“找工作”已经提上了日程。为了帮助大家更好地准备暑期实习和秋招,本期主要从时间线、学习路线、核心知识点及投递几方面给大家介绍,希望能为大家提供一些实用的建议和帮助。
2025-05-06 23:56:27
4338
原创 一文吃透!Doris 冷热分层技术全解析
在大数据领域,数据量呈指数级增长,企业不仅要应对海量数据的存储难题,还要保障数据查询的高效性。Doris 作为一款备受青睐的高性能分布式分析型数据库,其冷热分层技术为企业提供了兼具高效性与成本效益的解决方案。本文将从原理、优势、实现方式,以及实际案例等多个维度,对 Doris 冷热分层技术进行深入剖析。
2025-05-01 21:49:06
926
原创 海量数据存储与分析:HBase vs ClickHouse vs Doris 三大数据库优劣对比指南
在当今大数据时代,数据正以前所未有的速度持续增长。来自各个领域的数据,如互联网行业用户的每一次点击、浏览记录,金融机构的海量交易数据,以及物联网设备源源不断上传的实时监测数据等,其规模呈指数级攀升。据权威机构统计,全球每年产生的数据量从过去的 EB 级迅速迈向 ZB 级。如此庞大的数据量,对数据存储和分析提出了极为严苛的要求。
2025-05-01 21:42:22
1993
原创 HBase协处理器深度解析:原理、实现与最佳实践
HBase作为Apache顶级项目,凭借其高效的分布式存储和检索能力,在大数据领域广泛应用。然而,随着业务需求的复杂化,单纯的数据存储功能已无法满足所有场景。此时,HBase协处理器(Coprocessor)便成为了一个关键的扩展工具。本文将深入探讨协处理器的原理、实现方法、应用场景及注意事项,帮助开发者高效利用这一特性。
2025-04-26 19:43:18
1304
原创 3月这些同学拿到大数据offer,他们都是啥条件?
一般来说金三银四,整体机会略微还是多些的,但是没有想象中的好,3月涤生上岸了23个同学,社招18个,校招5个,说实话这个成绩没有达到我们的预期。现在的行情越来越卷哈,卷学历,卷能力,就是抢别人的饭碗,森林法则,适者生存,找工作学历教育背景+工作背景+技术能力三者你要打造一个属于自己的亮点。:涤生的社招学员目前60%+是企业在职进阶学员,基本各大厂的进阶学员都有,他们的薪资从10k,15k,20k,25k,30k,35k,40k。术业有专攻,企业怎么用,面试怎么面,我们就怎么学,涤生让大数据学习不迷惘。
2025-04-22 23:19:05
652
原创 简化K8S部署流程:通过Apisix实现蓝绿发布策略详解(上)
本次主题主要目的是为大家讲解蓝绿发布,但是发现文档和内容太长了,对此将文档拆分成了两部分,视频拆分成了好几部分,这样大家刷起来没疲劳感。 第一部分《apisix + argorollout 实现蓝绿发布I-使用apisix发布应用》,主要内容为:
2025-04-22 23:10:20
838
原创 一文弄懂离线数仓中小文件问题
产生场景: MaxCompute使用盘古分布式文件系统是按块(Block)存放的,通常文件大小比块大小小的文件(默认块大小为64MB),被称为小文件。
2025-04-16 23:52:23
991
原创 数据清洗到底在清洗什么?
在大数据时代,数据是每个企业的五星资产,被誉为“新石油”,但未经处理的数据往往参杂着大量“杂质”。这些“脏数据”不仅影响分析结果,严重的甚至误导企业决策。数据清洗作为数据预处理的关键环节,正是通过“去芜存菁”,让数据焕发价值。那么,数据清洗究竟在清洗什么?本文将为你一一解析。
2025-04-16 23:32:28
1106
原创 数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!
数据治理,数据质量这快是中大厂,高阶大数据开发面试必备技能,企业基于大数据底座去做数仓,那么首先需要保障的就是数据质量。
2025-04-10 23:04:19
586
原创 校招面试全攻略:揭秘校招面试四步走
首先讲一下我的基本情况:本二,211研,数学相关专业,最后求职方向选择了大数据开发方向。这次分享基于我个人的整个校招经历总结,主要和大家分享一下面试的经验,主要的心历路程还是很长的,从提前批开始投递 -> 笔试 ->面试 -> 泡池子 -> 陆续收到Offer,整个时间周期跨度大概3个月。分享前先让大家了解下光哥的关爱哈哈!!
2025-04-05 15:45:36
775
原创 探索Doris:日志分析的新宠,是否能取代老牌ES?
在大数据时代,日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch(简称 ES)作为一款广泛应用的开源分布式搜索和分析引擎,长期以来在日志管理领域占据着举足轻重的地位。然而,随着技术的不断发展,新的解决方案层出不穷,其中Apache Doris 凭借其卓越特性,在日志存储与分析领域迅速崛起,引发业界热议:Doris 是否会成为新一代王者,取代传统的 Elasticsearch(ES)?
2025-04-02 22:09:02
900
原创 企业数据治理实践:“七剑” 合璧,释放数据价值
在数字化转型的浪潮中,数据已成为企业的核心资产,其治理水平直接关乎企业的竞争力和可持续发展能力。数据模型治理、元数据治理、数据质量治理、数据标准治理、主数据治理、数据安全治理以及数据服务平台治理,共同构成了企业数据治理的关键体系,如同七把利剑,各司其职又协同作战,助力企业在数据驱动的时代中脱颖而出。本文带大家深入探讨这七个方面在企业数据治理实践中的重要作用、实施方法及应用案例。
2025-04-02 22:03:55
982
原创 在海量数据中精准定位:BloomFilter的工作原理与实战指南
布隆过滤器(Bloom Filter)是1970年由 Burton Horward Bloom 提出的一种非常节省空间的概率型数据结构,运行速度快,占用内存小,但有一定误判率且无法删除元素。它实际上是一个很长的位数组(bitmap)和一系列随机哈希函数组成,主要用于判断一个元素是否在一个集合中。
2025-03-28 20:09:20
1129
原创 Spark实战中的坑,你踩过几个?技术专家深度解析!
在这篇文章中,以大数据从业近十年的工作经验来看,我尽可能收集到一些常见的错误和问题以及我们可以实施的解决方案和优化。
2025-03-25 19:19:29
986
程序员的薪资天花板是多少?
2021-11-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人