- 博客(23)
- 收藏
- 关注
原创 【无标题】
用户画像技术及方法论本文来源于网络,如有侵权,联系删除转自:架构师社区用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。既然用户体验非常重要,那如何去「度量」和「优化整个流程」呢,那就是站在「用户角度」收集其在各个模块的数据,并利用「统计」、「概率」思维「建模分析」;在产品运营、增长过程中找到「雪球效应」的「撬动点」施以影响,最终建立起「良性的闭环」。
2021-12-22 16:22:02
260
原创 ClickHouse应用
第二章 ClickHouse的安装2.1 准备工作2.1.1 确定防火墙处于关闭状态2.1.2 CentOS取消打开文件数限制 在hadoop102的 /etc/security/limits.conf文件的末尾加入以下内容[apache@hadoop102 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* ha...
2021-03-02 16:10:37
474
原创 Hive临时表介绍
Hive 版本 2.1.1一.Hive临时表介绍作为临时表创建的表将只对当前会话可见。数据将存储在用户的scratch目录中,并在会话结束时删除。如果用数据库中已经存在的永久表的数据库/表名创建了一个临时表,那么在该会话中,对该表的任何引用都将解析为临时表,而不是永久表。如果不删除临时表或将其重命名为不冲突的名称,用户将无法在该会话中访问原始表。临时表存在如下限制:不支持分区列 不支持创建索引Hive的临时表在数据加载的过程中会频繁使用到,对于复杂的业务逻辑,可以将数据先存储在临时表
2021-02-25 16:29:23
2814
原创 ElasticSearch工具类
import java.utilimport java.util.Objectsimport io.searchbox.client.config.HttpClientConfigimport io.searchbox.client.{JestClient, JestClientFactory}import io.searchbox.core.{Bulk, BulkResult, Index}import scala.collection.JavaConverters._object M.
2021-01-11 20:01:04
509
原创 Kafka工具类
import java.util.Propertiesimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.dst.
2021-01-11 19:56:58
661
原创 Scala中常见wordcount案例(二)
def main(args: Array[String]): Unit = { // val source = Source.fromFile("input/input02.txt")// val list = source.getLines().toList.dropRight(1)// source.close() val list = List( ("zhangsan", "河北", "鞋"), ("lisi", "河北", "衣服"), ("wangwu", "河北", .
2020-11-28 12:56:07
190
原创 Scala中常见wordcount案例(一)
def main(args: Array[String]): Unit = { // TODO Scala Wordcount TopN // 需求: 从文件中读取数据, 将读取到的数据拆分成一个一个的单词,对每个单词出现的次数进行统计, // 将最终统计的结果按照次数进行降序排序,取topn // 1. 从文件中将数据读取到集合中// val source: BufferedSource = Source.fromFile("input/input.t...
2020-11-28 12:46:53
471
原创 Scala中List常用方法使用(四)
def main(args: Array[String]): Unit = { // TODO Scala 集合 常用方法 val list = ListBuffer(1,2,3,4,5) // 28. map: 映射, 将集合通过计算(转换规则)转换成另外一个集合. var result = for(i <- list) yield { "*" * i } println(result) list.map((i:Int)=&g...
2020-11-28 12:00:44
300
原创 Scala中List常用方法使用(二)
def main(args: Array[String]): Unit = { // TODO Scala 集合 常用方法 val list = ListBuffer(1,2,3,4,5) val list2 =ListBuffer(7,8,9,10,11,12) // 16. 切分集合 println(list2.splitAt(3)) // 17. 滑动 println(list.sliding(2).mkString(" , ")) /...
2020-11-28 11:57:51
310
原创 Scala中List常用方法使用(一)
object Scala10_Method { def main(args: Array[String]): Unit = { // TODO Scala 集合 常用方法 val list = ListBuffer(1,2,3,4,5) val list2 =ListBuffer(4,5,6,7,8,9,10,11) //1.集合的长度 println(list.length) println(list.size) //2.集合是否为空 ...
2020-11-28 11:56:37
963
原创 应该知道得Redis五种常用数据结构
Redis五种常用数据结构4.1 总体结构Redis中的数据,总体上是键值对,不同数据类型指的是键值对中值的类型。 KEY VALUE string list set hash zset 4.2 String类型Redis中最基本的类型,它是key对应的一个单一值。二进制安全,不必担心由于编码等问题导致二进制数据变化...
2020-11-17 16:55:39
273
原创 hadoop集群搭建之:---Zookeeper安装
分布式安装部署1)集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2)解压安装(1)解压Zookeeper安装包到/opt/module/目录下$ tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/(2)修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeeper-3.5.7$ mv apache-zookeeper-3.5.7-bin/
2020-11-09 19:14:59
330
原创 项目经验之支持LZO压缩配置
项目经验之支持LZO压缩配置1.将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/2.同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop1043.core-site.xml增加配置支持LZO压缩 <configuration> <property> <name>io.compression.codecs...
2020-11-09 19:08:52
308
原创 hadoop集群搭建之二:---hadoop安装
完全分布式运行模式分析:1)准备3台客户机(关闭防火墙、静态ip、主机名称)2)安装JDK3)配置环境变量4)安装Hadoop5)配置环境变量6)配置集群7)单点启动8)配置ssh9)群起并测试集群Hadoop部署1)集群部署规划注意:NameNode和SecondaryNameNode不要安装在同一台服务器注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。在这里插入图片描述2)将hadoop-3
2020-11-09 18:53:44
181
原创 hadoop集群搭建之一: jdk安装
环境基础---安装jdk1.1)卸载现有JDK#sudo rpm -qa | grep -i java | xargs -n1 sudorpm -e --nodeps2)上传JDK软件包到Linux系统下的/opt/software #ls /opt/software/3)解压JDK到/opt/module目录下 # tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/4)配置JDK环境变量(1)新建/et...
2020-11-09 18:38:18
346
1
原创 MapReduce的八大步骤:
MapTask运行机制详解整个MapTask的简要概述:首先一个文件被split逻辑切分成了多个split文件(切片), 通过FileInputFormat的RecordReader按行(也可以自定义)读取内容给map进行处理, 数据被map处理结束后交给OutputCollector收集器, 对其结果key进行分区 (默认使用Hash分区), 然后写入内存缓冲区(buffer), 每个MapTask都有一个内存缓冲区, 收集map处理结果, 缓冲区很小需要重复利用, 每次缓冲区快满的时候就会将临时
2020-10-19 19:20:26
1163
原创 hadoop3.1.3格式化NameNode后,启动Namenode,报错
1.格式化NameNode后,启动Namenode,报错报错内容:ERROR: Cannot set priority of namenode process XXXX尝试方法:一:1.检查core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml2.删除data,log文件,重新格式化后,启动Namenode,扔报错此方法无效,仍是报错二:尝试百度,提示有可能为环境变量问题最终解决方法1.首先查询日志.
2020-10-12 17:52:36
2000
1
原创 深入剖析为什么HDFS文件块(block)大小设定为128M
最近看到这个面试问题,CSDN搜了半天也没有确切答案,查询资料思考后总结如下:我们在HDFS中存储数据是以块(block)的形式存放在DataNode中的,块(block)的大小可以通过设置dfs.blocksize来实现;在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M;目录一、为什么HDFS中块(block)不能设置太大,也不能设置太小?二、 HDFS中块(block)的大小为什么设置为128M?寻址时间:HDFS中找到目标文件块(blo...
2020-10-09 19:57:46
823
原创 常用DOS命令
常用DOS命令dir:列出当前目录下得文件以及文件夹md:创建目录rd:删除目录cd:进入指定目录cd..:退回到上一级目录cd\:退回到根目录del:删除文件exit:退出dos命令行常用快捷键Delete和Backspace:删除字符...
2020-08-21 19:04:41
133
原创 数据库多表查询
等值连接查询 原理:将多个表组合成一张逻辑大表 字段相加 记录相乘 语法 两张表 select 查询内容 from A,B where A.主键=B.外键 and 查询条件 三张表 select *...
2019-02-14 18:06:42
404
原创 数据库建表 多表查询
create table tsb(zbh int primary key,flh char(10) not null,sm varchar(20) not null,zz varchar(10) not null,cbdw varchar(20) not null,dj char(10)) create table dzb(jszh int primary key,...
2019-02-12 18:33:55
630
原创 数据库查询基础语句
#单行注释/*多行注释*/ #语句建表/*create table 表名(字段名1 字段类型 约束1 约束2,字段名2 字段类型,...字段名n 字段类型);*/ #创建学生表---xsb/*学号(主键),姓名(非空),性别(枚举),年龄,班级(默认188)籍贯,身份证号(唯一),注册日期(默认系统时间)*/c...
2019-01-26 17:48:44
767
原创 数据库基本命令
数据库常见数据类型 整数 int 浮点数 float 单精度浮点数 小数点后6-7位 double 双精度浮点数 小数点后14-15位 字符串 char(10) 用于存放固定长度的 Varchar(10) 用于存放长度不固定的 日期 年 year 年月日 data 年月日时分...
2019-01-25 15:52:08
163
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人