
2020年数据中台
2019年6月开始数据中台开发,以及后续的产品开发记录
哈哈哈哈蜜瓜
。软件工程师。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
本地运行以及远程运行mapReduce
mapReduce可以分为2部分,map以及reduce。map的作用是将业务数字化,模型化。然后指定,reduce函数保证所有映射的键值对中的每一个共享相同的键组。不管本地运行,还是远程运行,都需要在本地配置hadoop环境。1. 将hadoop-3.2.1.tar.gz解压至本地目录2.将winutils.exe以及hadoop.dll放在hadoop-3.2.1\bin目录下3.配置环境变量path配置之后的就与网上其他代码的一致了。本地运行本地m..原创 2021-11-24 14:26:48 · 1899 阅读 · 0 评论 -
HBase集成phoenix实现SQL操作
(所有安装注意版本是否兼容)安装HBase,见。https://blog.csdn.net/lvhao2813/article/details/104993229下载phoenix官网下载地址:http://phoenix.apache.org/download.htmlhadoop-3.2.1 + hbase-2.2.4 + phoenix-5.1.2解压tar -zxvf phoenix-hbase-2.2-5.1.2-bin.tar.gz将phoenix-server原创 2021-08-24 15:46:26 · 584 阅读 · 0 评论 -
2020年已完成的平台产品,2021年目标计划完成的平台产品
已有的原始积累:权限组平台文档管理平台{ HDFS }ETL数据同步监控平台BI统计平台{ 1.图表发布 2.数据仓库 3.one id 4.托拉拽报表 }铁通门户{ 1.门户业务 2.HBase待办池 }工具平台2021年平台实现规划:共享接口平台健康检查平台消息推送管理平台数据库日志操作记录,业务集成...原创 2021-02-02 11:23:22 · 142 阅读 · 0 评论 -
Linux部署7.9.3ELK+Filebeat监控tomcat日志
Linux环境安装7.9.3版本elasticsearch1. 下载及解压 将elasticsearch-7.9.3-linux-x86_64.tar.gz放在myfiles中解压2. 修改es相应的配置cd /myfiles/elasticsearch-7.9.3/configvi elasticsearch.ymlnode.name: node-1network.host: 0.0.0.0http.port: 9200cluster.initial_master_...原创 2020-12-04 14:48:32 · 763 阅读 · 0 评论 -
hadoop(高可用)在linux部署以及集群笔记
VM虚拟机,克隆后修改ipcd /etc/sysconfig/network-scriptsvim ifcfg-ens33重启关闭防火墙yum install iptables-services查看防护墙状态service iptables status关闭service iptables stop查看防火墙开机启动状态chkconfig iptables --list关闭开机启动chkconfig iptables off1. 配置主机名以及解析vim.原创 2020-09-25 17:35:41 · 634 阅读 · 1 评论 -
linux部署nfs文件共享服务
nfs服务端安装:说明:文件服务器节点包括192.168.64.101,192.168.64.102,192.168.64.104.在安装前需要关闭防火墙nfs的安装命令: yum install nfs-utils portmap nfs4-acl-toolsvi /etc/exports(主节点修改,也就是192.168.64.101服务端修改)增加的内容: /myfiles/portal_upload 192.168.12.121/24(rw,sync)执行 mkdir -.原创 2020-06-10 16:23:05 · 204 阅读 · 0 评论 -
spring cloud 分布式Hadoop之Spark
下载spark安装包spark-2.3.4-bin-hadoop2.7.tgz,地址http://mirrors.hust.edu.cn/apache/spark/spark-2.3.4/解压tar -zxvf spark-2.3.4-bin-hadoop2.7.tgz编辑/etc/profile文件,添加环境变量vim /etc/profileexport SPARK_HOME=/myfiles/spark/spark-2.3.4-bin-hadoop2.7export PATH原创 2020-06-03 14:37:51 · 800 阅读 · 0 评论 -
spring cloud 分布式Hadoop三部曲之HDFS
背景:引入HDFS为后续的HBase以及Hive做准备,3部曲就绪,整体作为Hadoop核心架构体系,千万数据也是秒级!!!之前在项目中遇到什么问题呢,1. 海量数据(日志等等)无法做到3秒内查询2. ETL百万数据需要3小时+来迁移3. 海量计算,我们目前都不是实时,而是先计算好(需要计算6小时的),之后再迁移数据为了解决这些 问题就需要hadoop框架,那么这次就跟随我一起...原创 2020-06-03 14:05:22 · 1476 阅读 · 1 评论 -
spring cloud 分布式Hadoop三部曲之Hive
下载apache-hive-2.3.7-bin.tar.gz 放在目录/myfiles/hive 解压tar -zxvf apache-hive-2.3.7-bin.tar.gzhttp://mirror.bit.edu.cn/apache/hive/修改环境变量vim /etc/profileexport HIVE_HOME=/myfiles/hive/apache-hive-2.3.7-binexport PATH=$PATH:$HIVE_HOME/bin//执行sourc..原创 2020-06-03 13:44:37 · 1006 阅读 · 0 评论 -
hadoop在linux部署以及集群笔记
hadoop是建立在廉价机器上的集群,实现高可用,高并发使用hadoop存储都是延时存储Hadoop部署模式区分依据nameNode、dataNode、resourceManager、nodeManager等模块运行在几个jvm进程本地模式 各模块占用JVM进程数1个 各个模块运行在1个机器上伪分布模式 各模块占用JVM进程数N个 各个模块运行在1个机器上完全分布模式 各模块占用JVM进程数N个 各个模块运行在N个机器上.原创 2020-05-29 16:07:48 · 251 阅读 · 0 评论 -
ELK使用rancher容器部署,主机删除导致容器丢失引发的重大事故
背景:今天服务器主机突然重启发现,rancher容器网络出现问题,大面积服务启动失败、Timeout getting IP address。就是所有的容器服务都启动不起来。我们删除主机,重新添加,发现所有的容器都没有了,服务都是rancher从镜像重新拖拽下来的,也就是说之前在容器修改的配置文件,以及log日志,es存储都没有了。这个风险很严重,所以这次记录一下该问题解决方案。...原创 2020-05-28 14:23:51 · 717 阅读 · 0 评论 -
spring cloud 引入elasticsearch做oracle数据库全文检索,ouput会冲突的问题(二)
之前我们,通过java直接put对象,让elasticsearch作为数据库,可以通过java api增删查改。现在,我们通过jdbc直接将数据库的数据全部导入到elasticsearch,并定时什么时候进行同步。elasticsearch相当于redis一样的作为暂时存储,并快速查询的功能,之前遇到过docker容器被移除,日志与elasticsearch存储丢失,所以采用该方式更加安全elasticsearch借助logstash,将数据库数据定期,放入elasticsearch..原创 2020-05-13 14:31:45 · 297 阅读 · 0 评论 -
spring cloud 引入elasticsearch做oracle数据库全文检索(一)
一、spring cloud 引入elasticsearch spring cloud集成了elasticsearch,但是我们部署的elasticsearch版本要与引入的elasticsearch的jar版本一直引入pom<dependency> <groupId>org.springframework.boot</...原创 2020-05-12 17:58:54 · 584 阅读 · 0 评论 -
如何强行替换spring boot parent中的依赖jar
目的,如何强行替换spring boot parent中的依赖jar!!!由于我们spring boot版本是<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.4.RELEASE</version></parent&原创 2020-05-11 16:19:43 · 2050 阅读 · 0 评论 -
spring cloud zipkin链路跟踪日志接入elasticsearch
之前我们通过下载zipkin-server-2.12.9-exec.jar 直接jar启动的zipkin,详见https://blog.csdn.net/lvhao2813/article/details/104983952我们通过官方文档,https://github.com/openzipkin/zipkin/tree/master/zipkin-server#elastic...原创 2020-05-06 17:51:26 · 469 阅读 · 0 评论 -
Spring cloud使用ELK配置与使用详解之elasticsearch
elasticsearch作为搜索引擎,用处之一就是快速处理日志查一、简介集群(Cluster):所有数据提供存储和检索的集合(服务器集合),根据明细来指定要加入哪个集群,默认“elasticsearch”结点(Node):提供存储和检索的一台服务器索引(Index):类似于数据库,是相关文档存储的地方。“建立一个文档”,“索引一个文档”表示把一个文档存储在某个索引中类型(Ty...原创 2020-05-06 16:44:50 · 1261 阅读 · 0 评论 -
Spring cloud使用ELK配置与使用详解之Logstash
首先之前记录了如何部署安装sebp/elk,在启动后这些应用扮演的角色和功能,以及详细每个工具的应用我们在这里进行介绍。Logstash,分布式日志收集。可以将所有分布式应用的日志进行回收采集。一、对于上一篇结尾sebp/elk,对于Logstash的配置文件在etc/logstash/conf.d/下,它会整合所有的配置文件然后启动。默认的input方式是filebeat,我们修...原创 2020-04-27 16:33:13 · 1435 阅读 · 0 评论 -
spring cloud获取eureka所有注册应用的信息
背景:主干业务,需要开发新的平台,在主干有对应的业务对接到新平台。检测应用的状态,是否启动 并UP如何启动则可以访问,否则提示该服务平台未启动。代码如下即可获取。其中注意,是org.springframework.cloud.client.discovery.DiscoveryClient而不是com.netflix.discovery.DiscoveryClient;packa...原创 2020-04-22 17:27:35 · 720 阅读 · 0 评论 -
spring boot项目引入项目(包含controller的一个spring boot可启动应用),作为jar,maven打包找不到类
问题:https://blog.csdn.net/lvhao2813/article/details/105144572之前我将公共产品的项目作为jar引入,其实是当前eclipse项目引入的如图所以在当前项目启动的时候是可以找到对应的类但是当我打包该项目时候却找不到该项目的类了。将MPSS-bi-solo项目关闭后。该项目也会报错。(MPSS-bi-solo项目是一个有自...原创 2020-04-10 14:35:57 · 1622 阅读 · 0 评论 -
spring cloud 引入公共项目jar,可以访问controller以及相同数据库mybatis
背景:我们开发bi组件,作为公共产品,其中包含数据包,图表,图册对应的功能接口。包含mvc一套而后续为了推广到各个省份,但是bi工具平台依然在更新功能,那么这里以jar包引入到其他业务省份。1. 在pom中引入bi产品项目<dependency> <groupId>com.boco.mpss</groupId> <ar...原创 2020-03-27 16:38:14 · 1866 阅读 · 0 评论 -
spring cloud 分布式Hadoop三部曲之HBase
背景:mysql不适合存储非常巨大的数据量,不利于扩展,影响性能。(包括oracle数据库十分巨大)我们就需要考虑HBase作为存储工具。HBase具有非常高的读写性能,支持无上限的数据存储容量...原创 2020-06-03 13:54:29 · 908 阅读 · 0 评论 -
大数据平台与kafka
为什么大数据平台需要引入kafka呢?是用来解决什么问题呢?我读到一篇文章,秒速的很好,这里引入,作为笔记记录一下场景一:我们开发过一个设备信息挖掘平台。这个平台需要实时将采集互联网关采集到的路由节点的状态信息存入数据中心。通常一个网关一次需要上报几十甚至几百个变化的路由信息。全区有几万个这种互联网关。当信息采集平台将这些变化的数据信息写入或更新到数据库时候,会给数据库代理非常大的压力,甚...转载 2020-03-20 15:55:31 · 434 阅读 · 0 评论 -
springcloud的日志中心ELK搭建
背景:我们在服务部署很多的应用,但是有时候服务器会报错或者启动失败等等,我们就需要去服务器看日志,看看是什么问题,如果我们部署很多,那么查看日志就会很繁琐。这里就引入日志中心,来汇聚所有服务的日志,并且提供了可视化界面来看日志,这样就便捷很多。过程中看了很多人的帖子,我这里也记录一下搭建过程ELK它是3个产品的缩写,E就是ElasticSearch(搜索引擎,处理数据),L就是Lo...原创 2020-03-20 15:28:46 · 1376 阅读 · 0 评论 -
spring cloud分布式引入zikpin链路跟踪
背景:为什么要引入zikpin链路跟踪呢?是因为我们在调用后台接口的时候,发现有很多连接超时,以及接口响应过长等等问题。链路跟踪可以将请求的每个 沿途 像一条链一样串起来,并展示1.首先下载zipkin-server-2.12.9-exec.jar ,这个jar可就是spring boot项目内置tomcat,直接java -jarzipkin-server-2.12.9-exe...原创 2020-03-20 10:20:12 · 1265 阅读 · 0 评论 -
spring cloud分布式部署docker+rancher
背景:由于spring cloud部署的应用很多,每次重启在虚拟机编写指令需要很多而且每个服务器都需要,解决这一繁琐操作,我们将对应的服务用docker打包,然后rancher运行docker容器,在ranchar图形界面进行操作1. 首先准备2个环节,分布在linux安装docker,一次执行即可yum updateyum install -y yum-utils device-ma...原创 2020-03-19 15:52:19 · 1477 阅读 · 0 评论 -
spring cloud 引入图形验证码kaptcha
1. 首先引入jar包,用于生成图形验证码不引入第二个jar包会报错,java.lang.NoClassDefFoundError:com/jhlabs/image/RippleFilter<dependency> <groupId>com.github.penggle</groupId> <artifactId>kaptc...原创 2020-03-18 17:49:26 · 1862 阅读 · 1 评论 -
数据中台(spring boot)_数据库版本控制flyway
背景:为什么要引入数据库版本控制?作为数据中台的一个bi组件,不断的迭代产品功能开发,对应的版本会新增很多的数据库脚本。不同的项目使用的产品的版本不同,如果不管理起来,没有办法给对应的项目,新增新的功能。flyway在微服务启动的时候,就可以检测到数据库版本的变化,从而能够自动去执行变更的数据库脚本,以此来保证除生产外的大部分环境的数据库版本都可以自动一致首先讲下如何使用:引入...原创 2020-01-09 14:45:55 · 523 阅读 · 0 评论