
大数据
文章平均质量分 68
昵称诚诚
stay hungry, stay foolish
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据治理导图
收到一张图,保存一下来自网络,侵删.原创 2021-11-04 17:26:14 · 428 阅读 · 0 评论 -
数仓建设之指标体系搭建
一、 什么是指标体系1**. 指标体系定义**指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足过程型原创 2021-07-08 15:44:31 · 930 阅读 · 2 评论 -
Hive SQL底层执行过程详细剖析
看到一篇干货,copy一下本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。**Hive**Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中转载 2021-06-18 16:24:33 · 686 阅读 · 0 评论 -
07 数据分析- 决策性分析
决策性分析通过数据分析、挖掘确定事件的最佳执行方案,以增加收入、降低成本、提升效率、控制风险的目的决策大决策决策频率低,单次决策影响大,价值高目标:提供决策支持,帮助决策人员做出最佳决策小决策决策频率高,单次决策影响小,总价值高目标:根据决策目标,通过决策系统给出最佳决策结果决策支持的分析步骤(大决策)1. 现状是什么 - 描述性分析2. 现状存在哪些问题 - 诊断性分析...原创 2020-04-26 00:13:04 · 787 阅读 · 0 评论 -
06数据分析 - 预测性分析
预测性分析分类 1. 决策树算法 计算步骤: 选择对象的一个特征,并根据这一特征对训练集进行分类 计算某特征分类后分类结果的混乱程度 (使用基尼系数,系数越小越接近根结点)  具体步骤是: 1. 用spark读取json数据后,得到一个dataframepath = '/xx/xxx/xxx.json'df = sqlContext.read.json(path)2. dataframe 经原创 2017-08-15 16:01:37 · 5264 阅读 · 5 评论