小呀么小白兔-CSDN博客

原创【无标题】

用户画像技术及方法论本文来源于网络，如有侵权，联系删除转自：架构师社区用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。既然用户体验非常重要，那如何去「度量」和「优化整个流程」呢，那就是站在「用户角度」收集其在各个模块的数据，并利用「统计」、「概率」思维「建模分析」；在产品运营、增长过程中找到「雪球效应」的「撬动点」施以影响，最终建立起「良性的闭环」。

2021-12-22 16:22:02 260

原创 ClickHouse应用

第二章 ClickHouse的安装2.1 准备工作2.1.1 确定防火墙处于关闭状态2.1.2 CentOS取消打开文件数限制 在hadoop102的 /etc/security/limits.conf文件的末尾加入以下内容[apache@hadoop102 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* ha...

2021-03-02 16:10:37 474

原创 Hive临时表介绍

Hive 版本 2.1.1一.Hive临时表介绍作为临时表创建的表将只对当前会话可见。数据将存储在用户的scratch目录中，并在会话结束时删除。如果用数据库中已经存在的永久表的数据库/表名创建了一个临时表，那么在该会话中，对该表的任何引用都将解析为临时表，而不是永久表。如果不删除临时表或将其重命名为不冲突的名称，用户将无法在该会话中访问原始表。临时表存在如下限制:不支持分区列不支持创建索引Hive的临时表在数据加载的过程中会频繁使用到，对于复杂的业务逻辑，可以将数据先存储在临时表

2021-02-25 16:29:23 2814

原创 ElasticSearch工具类

import java.utilimport java.util.Objectsimport io.searchbox.client.config.HttpClientConfigimport io.searchbox.client.{JestClient, JestClientFactory}import io.searchbox.core.{Bulk, BulkResult, Index}import scala.collection.JavaConverters._object M.

2021-01-11 20:01:04 509

原创 Kafka工具类

import java.util.Propertiesimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.dst.

2021-01-11 19:56:58 661

原创 Scala中常见wordcount案例(二)

def main(args: Array[String]): Unit = { // val source = Source.fromFile("input/input02.txt")// val list = source.getLines().toList.dropRight(1)// source.close() val list = List( ("zhangsan", "河北", "鞋"), ("lisi", "河北", "衣服"), ("wangwu", "河北", .

2020-11-28 12:56:07 190

原创 Scala中常见wordcount案例(一)

def main(args: Array[String]): Unit = { // TODO Scala Wordcount TopN // 需求: 从文件中读取数据, 将读取到的数据拆分成一个一个的单词,对每个单词出现的次数进行统计, // 将最终统计的结果按照次数进行降序排序，取topn // 1. 从文件中将数据读取到集合中// val source: BufferedSource = Source.fromFile("input/input.t...

2020-11-28 12:46:53 471

原创 Scala中List常用方法使用(四)

def main(args: Array[String]): Unit = { // TODO Scala 集合常用方法 val list = ListBuffer(1,2,3,4,5) // 28. map: 映射, 将集合通过计算(转换规则)转换成另外一个集合. var result = for(i <- list) yield { "*" * i } println(result) list.map((i:Int)=&g...

2020-11-28 12:00:44 300

原创 Scala中List常用方法使用(二)

def main(args: Array[String]): Unit = { // TODO Scala 集合常用方法 val list = ListBuffer(1,2,3,4,5) val list2 =ListBuffer(7,8,9,10,11,12) // 16. 切分集合 println(list2.splitAt(3)) // 17. 滑动 println(list.sliding(2).mkString(" , ")) /...

2020-11-28 11:57:51 310

原创 Scala中List常用方法使用(一)

object Scala10_Method { def main(args: Array[String]): Unit = { // TODO Scala 集合常用方法 val list = ListBuffer(1,2,3,4,5) val list2 =ListBuffer(4,5,6,7,8,9,10,11) //1.集合的长度 println(list.length) println(list.size) //2.集合是否为空 ...

2020-11-28 11:56:37 963

原创应该知道得Redis五种常用数据结构

Redis五种常用数据结构4.1 总体结构Redis中的数据，总体上是键值对，不同数据类型指的是键值对中值的类型。 KEY VALUE string list set hash zset 4.2 String类型Redis中最基本的类型，它是key对应的一个单一值。二进制安全，不必担心由于编码等问题导致二进制数据变化...

2020-11-17 16:55:39 273

原创 hadoop集群搭建之:---Zookeeper安装

分布式安装部署1）集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2）解压安装（1）解压Zookeeper安装包到/opt/module/目录下$ tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/（2）修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeeper-3.5.7$ mv apache-zookeeper-3.5.7-bin/

2020-11-09 19:14:59 330

原创项目经验之支持LZO压缩配置

项目经验之支持LZO压缩配置1.将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/2.同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop1043.core-site.xml增加配置支持LZO压缩 <configuration> <property> <name>io.compression.codecs...

2020-11-09 19:08:52 308

原创 hadoop集群搭建之二:---hadoop安装

完全分布式运行模式分析：1）准备3台客户机（关闭防火墙、静态ip、主机名称）2）安装JDK3）配置环境变量4）安装Hadoop5）配置环境变量6）配置集群7）单点启动8）配置ssh9）群起并测试集群Hadoop部署1）集群部署规划注意：NameNode和SecondaryNameNode不要安装在同一台服务器注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。在这里插入图片描述2）将hadoop-3

2020-11-09 18:53:44 181

原创 hadoop集群搭建之一: jdk安装

环境基础---安装jdk1.1）卸载现有JDK#sudo rpm -qa | grep -i java | xargs -n1 sudorpm -e --nodeps2）上传JDK软件包到Linux系统下的/opt/software #ls /opt/software/3）解压JDK到/opt/module目录下 # tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/4）配置JDK环境变量（1）新建/et...

2020-11-09 18:38:18 346 1

原创 MapReduce的八大步骤:

MapTask运行机制详解整个MapTask的简要概述:首先一个文件被split逻辑切分成了多个split文件(切片), 通过FileInputFormat的RecordReader按行(也可以自定义)读取内容给map进行处理, 数据被map处理结束后交给OutputCollector收集器, 对其结果key进行分区 (默认使用Hash分区), 然后写入内存缓冲区(buffer), 每个MapTask都有一个内存缓冲区, 收集map处理结果, 缓冲区很小需要重复利用, 每次缓冲区快满的时候就会将临时

2020-10-19 19:20:26 1163

小呀么小白兔

原创【无标题】

原创 ClickHouse应用

原创 Hive临时表介绍

原创 ElasticSearch工具类

原创 Kafka工具类

原创 Scala中常见wordcount案例(二)

原创 Scala中常见wordcount案例(一)

原创 Scala中List常用方法使用(四)

原创 Scala中List常用方法使用(二)

原创 Scala中List常用方法使用(一)

原创应该知道得Redis五种常用数据结构

原创 hadoop集群搭建之:---Zookeeper安装

原创项目经验之支持LZO压缩配置

原创 hadoop集群搭建之二:---hadoop安装

原创 hadoop集群搭建之一: jdk安装

原创 MapReduce的八大步骤:

原创 hadoop3.1.3格式化NameNode后,启动Namenode,报错

原创深入剖析为什么HDFS文件块（block）大小设定为128M

原创常用DOS命令

原创数据库多表查询

原创数据库建表多表查询

原创数据库查询基础语句

原创数据库基本命令

空空如也

空空如也