From 6014be73e3f86aa1047b4e3ee4e04795b3d92504 Mon Sep 17 00:00:00 2001 From: java131313 Date: Tue, 25 Jun 2019 18:51:28 +0800 Subject: [PATCH 1/4] =?UTF-8?q?=E5=A4=A7=E6=95=B0=E6=8D=AE=E9=9D=A2?= =?UTF-8?q?=E8=AF=95=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...24\350\276\276\351\235\242\350\257\225.md" | 179 ++++++++++++++++++ ...57\344\273\266\344\270\255\345\277\203.md" | 13 ++ ...21\347\210\261\346\210\221\345\256\266.md" | 1 + ...21\350\223\235\347\247\221\346\212\200.md" | 5 + 4 files changed, 198 insertions(+) create mode 100644 "\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" create mode 100644 "\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" create mode 100644 "\346\210\221\347\210\261\346\210\221\345\256\266.md" create mode 100644 "\347\247\221\350\223\235\347\247\221\346\212\200.md" diff --git "a/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" "b/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" new file mode 100644 index 000000000..967f42048 --- /dev/null +++ "b/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" @@ -0,0 +1,179 @@ +1.Hive������б +��ɵ�ԭ�� +��1��keyֵ�ֲ������� +��2��ҵ�����ݲ����� +�����������ݹ��٣��������ݹ��� +��Ͱ�ֶεĿ�ֵ���� +��3������ʱ���Dz��� +��4��ijЩSQL��������������б +���磺join����ز�����groupby�����ʹ�á�count(distinct)ijЩ����ֵ���� +��������� +��1������������� +a.hive.map.aggr=true,map�˵�Ԥ�ۺϣ��൱��combiner +b.hive.groupby.skewindata=true,��������б��ʱ���Զ����и��ؾ��⣬��ѡ��true�ǻ����ɲ�ѯ +�ƻ���������job,��һ��map job�е�map��������������ַ���reduce�У���reduce�������־ۺ� +����reduce����Ľ���ǵ����ģ�groupbykey�п��ܱ��ַ�����ͬ��key�У��Ӷ��ﵽ���ؾ��⣬�ڶ��� +map job��Ԥ�����Ľ��������Ľ���ۺ� +��2��sql����ĵ��� +a.ѡȡkey�ֲ��ȽϾ��ȵı���Ϊ��������Ȼ�󽫱����ص��ڴ���������������join +b.��С��joinʱ����С���Ƚ��ڴ棬Ȼ������������join +c.���join���ʱ�����п�ֵ��key���������������б�����ݷֲ�����ͬ��redcue�ϣ� +d.count distinct ������ͬ������ֵ����keyΪ�յ����ݵ������� +e.���������б�����ݶԼ���Ľ��û��̫���Ӱ�����ֱ�Ӽ�where���ڹ��˵�,���� +����Щ����������� +2.Hive���ⲿ�����ڲ������𡢷�Ͱ������ +�ڲ������ⲿ�������� +������ +�ڲ�������ʱ����Ҫָ�����ݴ洢Ŀ¼��ֱ��Ĭ�ϴ洢��user/hive/warehouse +�ⲿ������ʱ��Ҫ�Լ�ָ�����ݴ洢Ŀ¼ +ɾ������ +�ڲ���ɾ��ʱ��ֱ�ӽ����ݺ�Ԫ����ֱ��ɾ���� +�ⲿ��ɾ��ʱ��ֻ�ǽ�Ԫ����ɾ���� +�޸ģ� +�ڲ����Է����ͱ��ṹ�����޸�ʱ����ֱ��ͬ����Ԫ���� +�ⲿ���Է����ͱ��ṹ�����޸�ʱ������ͬ����Ԫ���ݣ���Ҫ�޸�Ԫ���ݣ�msck repair table_name +3.���ǹ�˾Hive��metastoreԪ���ݲֿ���ŵ�ʲô���ݣ� +ҵ������ӳ��ɱ��������Щ���ı������ֶΡ�������location�� +4.���ǹ�˾ʹ��HiveԪ���ݵķ�����ʲô�� +hiveserver2 +beeline -u jdbc:hive2://[ip]:10000/db_name -nroot password + +!connect + beeline jdbc:hive2://[ip]:10000/db_name -nroot +5.Hbase�ܹ�ԭ�����Ż� +Hbase�ܹ��� +client:�ύ���� +zookeeper:�洢-root����root����洢��-meta������Ϣλ����Ϣ���Լ�regoin��Ԫ������Ϣ +master:Э��regoinServer����regoinServer�ҵ�ʱ��������regoinServerȥѰ�Ҵ洢��HDFS�ϵ����� +���¼��ص��ڴ� +regoinServer��regoin�Ǵ洢��regoinServer�ڵ��ϵ� +regoin:Ҳ���DZ���һ�Ŵ���洢���ݵ���һ������ֵʱ���Է��ѳɺܶ��regoin,�����regoinServer�� +memtore:�ڴ滺�壬��д����ʱ�����Ƚ���memtore�� +hlog(wal):Ԥд��־��������д��memtore�ǻ���HLOG��д��������ʹmemtore�е����ݼ�ʹ���ˣ� +Ҳ����ͨ��HLOG�ָ� +storeflile:��д����ļ�����hfile��� +hfile:memstore�е����ݴﵽһ����ֵ����д����д��HFile�ļ� + +Regoin�ķ������ã� +��hbase0.96�У�Ĭ��״̬�£����Ѳ�����IncreasingToupperBoundRegoinSplitPolicy, +������table��regoin������ƽ������memstore flush size�Ĵ�С�� +���磺memstore�ڴ��С��128M����һ��flush�ͷ��ѣ���Ϊregoin��һ�������ѳ�����regoin +���´η���regoin��size����2*2*128=512M���ﵽ512Mʱ�Ž��з��� + +�����regoin�ܴ�̶��ϲ����У��������ò��� +��һ���ı���ԣ����ò��� +�ڶ�������regoin�ڲ�storefile�����ֵ,�ڲ���������storefile�����ֵ + +HBase�Ż��� +1).��ǰ����regoin,�ڴ�����ʱĬ�ϻᴴ��һ��regoin����������������е������㹻��ʱ���Ž��зָ�и��ʱ�� +�����Ч�ʵͣ����Կ�����ǰ����һдregoin,������д�����ݵ�ʱ�򣬻ᰴ�շ�������ڼ�Ⱥ�������ؾ��� +2).�������rowkey,�������д������ݺͿ��ܻᱻ�������ʣ���ô���Խ�ʱ�����Ϊrowkey��һ���֣� +�����ǰ����ֵ����������ģ����Կ���ʹ��Long.MAX-timestamp��Ϊ����(��long�����ֵ-���ʱ��)�� +�������ܱ�֤��ȡ����ʱ�ᱻѸ������ +3).1-2�����壬��Ϊ��flush��ʱ���ٽ�������ᱻ����������flush +4).��������ʱ�����ͨ�����ò����������ŵ��ڴ��У��������С���Ч��ȡ +5).compact��split,��memtore�ﵽһ����ֵ��д��storefileʱ�������major compact,�����storefile�ϲ���һ�� +���storefile�ļ��������ǰ���rowkey���кϲ��ģ��ϲ��Ƿdz�Ӱ��Ч�ʵģ����Խ�storefile����һ�� +6)auto flush���Զ�flush,���Խ��Զ��رգ�HTable.setAutoFlush(false),������һ��put��ִ��һ��flush�� +���Զ�flush�ر�ʱ��ֻ����������ʱ���Ż���HBase����д���� +7)�ر�WAL LOG,���Ч�ʣ���ȫ�Խ����� +8)ͨ�����ò��������жಢ������������ +6.Redis��key����ƹ��� +�ڱ�֤Ψһ�Ե�����£�ʹ�ñ���:����:����ʽ +����˵����user:userid:9:username�� +7.Redis�ܹ�ԭ������� +K-V��ʽ���ڴ����ݿ�,֧�ֵ����ݽṹ��string,list��set��hash��sorted set�����򼯺ϣ� +���Ӽܹ�master-slave,ֻҪ����ѭ���Ӹ��ƵĻ��ƣ�������д��redis��master��ʱ��slaves�Ὣmaster�е�����copyһ�ݣ����� +ʹ������slave������master��ͬ������master�ڵ������û���д������Ȩ�ޣ�slavesֻ���������ݡ� + +redis����ʹ�ö�д���룬���Ӽܹ�ͬ����ɸ߲����ķ��� + +Redis�ij־û��� +RDB���գ�֧�ֽ���ǰ���ݴ��һ�������ļ��ij־û����ƣ�������ɿ��գ�����fork�����copy or writeдʱ���ƻ��ƣ� +�����ɿ����ǽ���ǰ����fork��һ���ӽ��̣����ӽ�����ѭ���������ݣ�����������д��RDB�ļ�������ͨ��save������ +�������ɿ��յ�ʱ����RDB�����ݲ���ȫ�£�û�дﵽ���ɿ��յ�ʱ��ʱ���һ���������ݶ�ʧ�� +AOF(append only file)��׷��д��־���ļ���aof�ļ��ǿ�ʶ��Ĵ��ı���������һ������redis�ı�׼����������� +��redis���ֻ����Щ�޸ĵ�����Ż�׷�ӵ�aof�ļ��С�ûһ���޸����ݵ����������һ����¼���浽aof�ļ��У� +��ô����ļ���ܴ�ģ�����redis���ṩ���µĻ��ƣ�aof rewrite ������������һ��aof�İ����µ�aof�ļ��У��Զ�ͬһ�����ݵ� +������һ�Σ�������ɵ���������¼ͬһ����¼�Ķ���޸���� + +8.KafkaΪʲô���ݴ���죿 +1)˳��д�룬 +2)memory mapped files:�ڴ�ӳ���ļ�������ʱֱ�ӴӴ���ʹ��DMA���䵽�ں˿ռ��paceCache�У��������ռ���й����� +�û��ռ䲻��Ҫ�����ݽ���copy������Ӧ�ó��򻺳����� + +���̣�1.����read�������ļ�����copy���ں˻����� + 2.read�������أ��ļ����ݴ��ں˻������������û������� + 3.write�������ã����ļ����ݴ��û�������copy���ں���socket��صĻ����� +9.Spark������б��GC���ţ���˾������GC���� +������б�� +(1)ҵ�����ݱ�����������б +(2)������б +10.Spark��checkpoint��persist������ +checkpoint:�����ݳ־û������̣��ⲿϵͳ +persist:���Խ�RDD�־û������̣�Ҳ���Խ�RDD�־û����ڴ棬������������RDD�ij־û����� +ʹ�ó�����ij����������ر��ʱ�����������ر� +cache:�����ڴ���ֻ��һ�ݸ�����ֻ�����ڴ��heap�У����ᱣ����ʲôĿ¼����HDFS�ϣ��п����ںܶ�������ڴ��У��п����� ��һ̨�������ڴ��� +cache֮�����������������ӣ���Ϊ��ʵ�ʹ����Ĺ����У�cache�������ӵĻ���ÿ�ζ��ᴥ�����������̣�cache������ָ�� +���������棬�ǿ���Զ����ģ� + +11.Spark��broadcast�Ĵ������ +�㲥����ֻ����Driver���е�SparkContext��ִ�в��ҷ��͵�Executor�У�Executor�е�task�Ṳ����һ������������ֻ��ִ�ж����� +����ִ��д������д����ֻ������Driver�˽���ִ�еġ� +12.��˾��Spark�õ�������shuffle? +13.��α���Spark Shuffle�� +Spark shuffleʹ��shuffle��������������ģ�����˵�Ǿ����������shuffle�������,����˵reducebykey��Join������ӣ����ᴥ��shuffle���� +shuffle���ܲ��ԭ�� +shuffle�����У������ڵ��ϵ���ͬ��key����д�뱾���ļ��У�Ȼ��ͨ�������ڵ���Ҫͨ�����紫����ȡ�����ڵ��ϴ�������ͬkey�� +���ҽ���ͬ��key��ȡ��ͬһ���ڵ���оۺ�ʱ�� ����һ�����ܾ�����ͬ��key���࣬���½ڵ��ڴ治����������д��������ȥ�� +�����shuffle�����У����д����Ĵ���IO�IJ������Լ����ݵ�����䴫�䣬����IO���������ݴ�����Щ�ͻᵼ��shuffle�������ܵ��µ�ԭ�� +1)ʹ�ù㲥����+filter,broadcast+map������������join��ʱ�����һ��������ͬ��С������join��ʱ�򣬿���С����㲥��ȥ���ٽ���filter + +14.���ǹ�˾��Spark�������ĸ���Դ������ύ��˵һ���ύ���� +Spark on Yarn: + 1.��Ⱥ������Executor���л㱨��Դ������ע���ResourceManager + 2.�ͻ��˽����ύSpark Applicatioin���񣬲���ResourceManager����һ��ApplicationMaster�� + 3.ResourceManager���տͻ����ύ����󣬷���һ��NodeManagerȥ����AppMaster + 4.��NodeManager������һ��AppMaster�����AppMaster���Կ�����һ��Driver�� + 5.��ʼ��ʼ��Driver������ʼ��SparkCOntext,�����ύ��job��һϵ�е�RDD��ɵģ���ЩRDD���γ�DAG�����޻�ͼ�� + ��DAGSchedulerȥ����RDD֮��Ŀ�խ�������ֳ�һ����Stage����ЩStage�γ���һ������Task,�γ���TasKSet,���͸� + TaskScheduler. + 6.TaskScheduler���յ�TaskSet֮�󣬸�����Ҫִ�е�Task������������ִ�е���Դ��Driver��ResourceManagerȥ������Դ�� + 7.ResourceManager���յ�Driver����Դ����֮�󣬸����������һ��NodeManager��ȥ����Executor�� + 8.NodeManager�����Լ�Ҫִ����ҵ��Executor����Driver���з���ע�ᡣ + 9.Driver��������Ҫִ�е�Executor��Դ��TaskScheduler��TaskSet�е�Task��������ַ���Executor�еģ� + 10.Executor�е�ThreadPool�̳߳ؽ��յ�Task��ʼִ�У���ִ�к�Ľ�����͸�Driver + 11.Driver���н���Ļ��ա�Task�����ִ�С�Task����ķ��� +15.DataSet��DataFrame��RDD���ߵ����� +��ͬ�㣺���߶���Sparkƽ̨�µķֲ�ʽ�������ݼ���Ϊ�����������ṩ�ṩ�˱��� + ���߶��Ƕ��Ի��ƣ�ֻ������action�������ӵ�ʱ�򣬲Ż�ִ�У� +���� + RDD: + RDDһ���Spark mrlibʹ�� + RDD��֧��sql���� + Spark���˽�RDD�ڲ���ϸ�����ݽṹ + DataFrame: + DataFrameÿһ�ж��̶�ΪRow,ֻ��ͨ���������ܻ�ȡ�����ֶε�ֵ��֧��Spark Sql����,����ע����ʱ������ͼ�Ȳ��� + ֧��һЩ�ȽϷ���ı��淽ʽ������csv�� + DataSet: + DataFrame��DataSetӵ����ȫ��ͬ�ij�Ա������������ÿһ�����������Dz�ͬ��. + DataSet[Row]����DataFrame,ÿһ�е�������ROW����������ÿһ������Щ�ֶ�Ҳ��֪���ģ�ֻ������getAS()�ķ�ʽ��ȡ��Ӧ�������ֶ� + + DataFrame�Ƿdz����õģ���DataSet[Row]��֪�����еĸ����ֶο���ͨ��sql���в������Ծ����ֶν��н��� + + ת���� + DataFrame��DataSetתRDD��ֱ�ӵ�RDD��testDF.rdd;testDS.rdd; + RDDתDataFrame:���ȵ�����import spark.implicits._ ����toDF����, + RDDתDataSet:���ȶ���һ��case class �����ֱ࣬��toDS + DataSetתDataFrame:��case class ��װ��Row���ͣ�ֱ�ӵ���toDF, + + +16.Spark��Դ�Ż� +Executor���ڴ���Ҫ��Ϊ���飺 + ��һ�����taskִ�д���ʱ��ʹ�õģ�ռ��20% + �ڶ������Spark Shuffleʱ����һ��stage��ȡ��һ��stage�Ľ�������оۺ�ʱʹ�õģ�ռ��20% + ������RDD���г־û�ʱ����ʹ�ã�Ĭ��ռ��60% + + +����bypass shuffle���Ƶ������У� +repartition��coalase��sortbykey \ No newline at end of file diff --git "a/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" "b/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" new file mode 100644 index 000000000..2b1863184 --- /dev/null +++ "b/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" @@ -0,0 +1,13 @@ +1.trait��������--scala +2.����������1T���ݵ��ļ����� +3.Spark������б +4.Spark���� +5.��дһ��wc +6.SparkС�ļ� +7.shuffle���� +8.ETL��� +9.Spark�ڴ���� +10.hive�Ż� + +��Ŀ...... + diff --git "a/\346\210\221\347\210\261\346\210\221\345\256\266.md" "b/\346\210\221\347\210\261\346\210\221\345\256\266.md" new file mode 100644 index 000000000..d98080b65 --- /dev/null +++ "b/\346\210\221\347\210\261\346\210\221\345\256\266.md" @@ -0,0 +1 @@ +sql \ No newline at end of file diff --git "a/\347\247\221\350\223\235\347\247\221\346\212\200.md" "b/\347\247\221\350\223\235\347\247\221\346\212\200.md" new file mode 100644 index 000000000..08b6e065e --- /dev/null +++ "b/\347\247\221\350\223\235\347\247\221\346\212\200.md" @@ -0,0 +1,5 @@ +1.��Ŀ����-�ܹ����� +2.�Լ��������Ŀ +3.Spark���� +4.����С�ļ� +̸��Ŀ........ From db0b4b92a84652de8316b5c5d2e4f7ec4462e76c Mon Sep 17 00:00:00 2001 From: java131313 Date: Tue, 25 Jun 2019 18:51:28 +0800 Subject: [PATCH 2/4] =?UTF-8?q?=E5=A4=A7=E6=95=B0=E6=8D=AE=E9=9D=A2?= =?UTF-8?q?=E8=AF=95=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...24\350\276\276\351\235\242\350\257\225.md" | 179 ++++++++++++++++++ ...57\344\273\266\344\270\255\345\277\203.md" | 13 ++ ...21\347\210\261\346\210\221\345\256\266.md" | 1 + ...21\350\223\235\347\247\221\346\212\200.md" | 5 + 4 files changed, 198 insertions(+) create mode 100644 "\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" create mode 100644 "\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" create mode 100644 "\346\210\221\347\210\261\346\210\221\345\256\266.md" create mode 100644 "\347\247\221\350\223\235\347\247\221\346\212\200.md" diff --git "a/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" "b/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" new file mode 100644 index 000000000..967f42048 --- /dev/null +++ "b/\345\214\227\344\272\254\346\230\223\350\201\224\350\276\276\351\235\242\350\257\225.md" @@ -0,0 +1,179 @@ +1.Hive������б +��ɵ�ԭ�� +��1��keyֵ�ֲ������� +��2��ҵ�����ݲ����� +�����������ݹ��٣��������ݹ��� +��Ͱ�ֶεĿ�ֵ���� +��3������ʱ���Dz��� +��4��ijЩSQL��������������б +���磺join����ز�����groupby�����ʹ�á�count(distinct)ijЩ����ֵ���� +��������� +��1������������� +a.hive.map.aggr=true,map�˵�Ԥ�ۺϣ��൱��combiner +b.hive.groupby.skewindata=true,��������б��ʱ���Զ����и��ؾ��⣬��ѡ��true�ǻ����ɲ�ѯ +�ƻ���������job,��һ��map job�е�map��������������ַ���reduce�У���reduce�������־ۺ� +����reduce����Ľ���ǵ����ģ�groupbykey�п��ܱ��ַ�����ͬ��key�У��Ӷ��ﵽ���ؾ��⣬�ڶ��� +map job��Ԥ�����Ľ��������Ľ���ۺ� +��2��sql����ĵ��� +a.ѡȡkey�ֲ��ȽϾ��ȵı���Ϊ��������Ȼ�󽫱����ص��ڴ���������������join +b.��С��joinʱ����С���Ƚ��ڴ棬Ȼ������������join +c.���join���ʱ�����п�ֵ��key���������������б�����ݷֲ�����ͬ��redcue�ϣ� +d.count distinct ������ͬ������ֵ����keyΪ�յ����ݵ������� +e.���������б�����ݶԼ���Ľ��û��̫���Ӱ�����ֱ�Ӽ�where���ڹ��˵�,���� +����Щ����������� +2.Hive���ⲿ�����ڲ������𡢷�Ͱ������ +�ڲ������ⲿ�������� +������ +�ڲ�������ʱ����Ҫָ�����ݴ洢Ŀ¼��ֱ��Ĭ�ϴ洢��user/hive/warehouse +�ⲿ������ʱ��Ҫ�Լ�ָ�����ݴ洢Ŀ¼ +ɾ������ +�ڲ���ɾ��ʱ��ֱ�ӽ����ݺ�Ԫ����ֱ��ɾ���� +�ⲿ��ɾ��ʱ��ֻ�ǽ�Ԫ����ɾ���� +�޸ģ� +�ڲ����Է����ͱ��ṹ�����޸�ʱ����ֱ��ͬ����Ԫ���� +�ⲿ���Է����ͱ��ṹ�����޸�ʱ������ͬ����Ԫ���ݣ���Ҫ�޸�Ԫ���ݣ�msck repair table_name +3.���ǹ�˾Hive��metastoreԪ���ݲֿ���ŵ�ʲô���ݣ� +ҵ������ӳ��ɱ��������Щ���ı������ֶΡ�������location�� +4.���ǹ�˾ʹ��HiveԪ���ݵķ�����ʲô�� +hiveserver2 +beeline -u jdbc:hive2://[ip]:10000/db_name -nroot password + +!connect + beeline jdbc:hive2://[ip]:10000/db_name -nroot +5.Hbase�ܹ�ԭ�����Ż� +Hbase�ܹ��� +client:�ύ���� +zookeeper:�洢-root����root����洢��-meta������Ϣλ����Ϣ���Լ�regoin��Ԫ������Ϣ +master:Э��regoinServer����regoinServer�ҵ�ʱ��������regoinServerȥѰ�Ҵ洢��HDFS�ϵ����� +���¼��ص��ڴ� +regoinServer��regoin�Ǵ洢��regoinServer�ڵ��ϵ� +regoin:Ҳ���DZ���һ�Ŵ���洢���ݵ���һ������ֵʱ���Է��ѳɺܶ��regoin,�����regoinServer�� +memtore:�ڴ滺�壬��д����ʱ�����Ƚ���memtore�� +hlog(wal):Ԥд��־��������д��memtore�ǻ���HLOG��д��������ʹmemtore�е����ݼ�ʹ���ˣ� +Ҳ����ͨ��HLOG�ָ� +storeflile:��д����ļ�����hfile��� +hfile:memstore�е����ݴﵽһ����ֵ����д����д��HFile�ļ� + +Regoin�ķ������ã� +��hbase0.96�У�Ĭ��״̬�£����Ѳ�����IncreasingToupperBoundRegoinSplitPolicy, +������table��regoin������ƽ������memstore flush size�Ĵ�С�� +���磺memstore�ڴ��С��128M����һ��flush�ͷ��ѣ���Ϊregoin��һ�������ѳ�����regoin +���´η���regoin��size����2*2*128=512M���ﵽ512Mʱ�Ž��з��� + +�����regoin�ܴ�̶��ϲ����У��������ò��� +��һ���ı���ԣ����ò��� +�ڶ�������regoin�ڲ�storefile�����ֵ,�ڲ���������storefile�����ֵ + +HBase�Ż��� +1).��ǰ����regoin,�ڴ�����ʱĬ�ϻᴴ��һ��regoin����������������е������㹻��ʱ���Ž��зָ�и��ʱ�� +�����Ч�ʵͣ����Կ�����ǰ����һдregoin,������д�����ݵ�ʱ�򣬻ᰴ�շ�������ڼ�Ⱥ�������ؾ��� +2).�������rowkey,�������д������ݺͿ��ܻᱻ�������ʣ���ô���Խ�ʱ�����Ϊrowkey��һ���֣� +�����ǰ����ֵ����������ģ����Կ���ʹ��Long.MAX-timestamp��Ϊ����(��long�����ֵ-���ʱ��)�� +�������ܱ�֤��ȡ����ʱ�ᱻѸ������ +3).1-2�����壬��Ϊ��flush��ʱ���ٽ�������ᱻ����������flush +4).��������ʱ�����ͨ�����ò����������ŵ��ڴ��У��������С���Ч��ȡ +5).compact��split,��memtore�ﵽһ����ֵ��д��storefileʱ�������major compact,�����storefile�ϲ���һ�� +���storefile�ļ��������ǰ���rowkey���кϲ��ģ��ϲ��Ƿdz�Ӱ��Ч�ʵģ����Խ�storefile����һ�� +6)auto flush���Զ�flush,���Խ��Զ��رգ�HTable.setAutoFlush(false),������һ��put��ִ��һ��flush�� +���Զ�flush�ر�ʱ��ֻ����������ʱ���Ż���HBase����д���� +7)�ر�WAL LOG,���Ч�ʣ���ȫ�Խ����� +8)ͨ�����ò��������жಢ������������ +6.Redis��key����ƹ��� +�ڱ�֤Ψһ�Ե�����£�ʹ�ñ���:����:����ʽ +����˵����user:userid:9:username�� +7.Redis�ܹ�ԭ������� +K-V��ʽ���ڴ����ݿ�,֧�ֵ����ݽṹ��string,list��set��hash��sorted set�����򼯺ϣ� +���Ӽܹ�master-slave,ֻҪ����ѭ���Ӹ��ƵĻ��ƣ�������д��redis��master��ʱ��slaves�Ὣmaster�е�����copyһ�ݣ����� +ʹ������slave������master��ͬ������master�ڵ������û���д������Ȩ�ޣ�slavesֻ���������ݡ� + +redis����ʹ�ö�д���룬���Ӽܹ�ͬ����ɸ߲����ķ��� + +Redis�ij־û��� +RDB���գ�֧�ֽ���ǰ���ݴ��һ�������ļ��ij־û����ƣ�������ɿ��գ�����fork�����copy or writeдʱ���ƻ��ƣ� +�����ɿ����ǽ���ǰ����fork��һ���ӽ��̣����ӽ�����ѭ���������ݣ�����������д��RDB�ļ�������ͨ��save������ +�������ɿ��յ�ʱ����RDB�����ݲ���ȫ�£�û�дﵽ���ɿ��յ�ʱ��ʱ���һ���������ݶ�ʧ�� +AOF(append only file)��׷��д��־���ļ���aof�ļ��ǿ�ʶ��Ĵ��ı���������һ������redis�ı�׼����������� +��redis���ֻ����Щ�޸ĵ�����Ż�׷�ӵ�aof�ļ��С�ûһ���޸����ݵ����������һ����¼���浽aof�ļ��У� +��ô����ļ���ܴ�ģ�����redis���ṩ���µĻ��ƣ�aof rewrite ������������һ��aof�İ����µ�aof�ļ��У��Զ�ͬһ�����ݵ� +������һ�Σ�������ɵ���������¼ͬһ����¼�Ķ���޸���� + +8.KafkaΪʲô���ݴ���죿 +1)˳��д�룬 +2)memory mapped files:�ڴ�ӳ���ļ�������ʱֱ�ӴӴ���ʹ��DMA���䵽�ں˿ռ��paceCache�У��������ռ���й����� +�û��ռ䲻��Ҫ�����ݽ���copy������Ӧ�ó��򻺳����� + +���̣�1.����read�������ļ�����copy���ں˻����� + 2.read�������أ��ļ����ݴ��ں˻������������û������� + 3.write�������ã����ļ����ݴ��û�������copy���ں���socket��صĻ����� +9.Spark������б��GC���ţ���˾������GC���� +������б�� +(1)ҵ�����ݱ�����������б +(2)������б +10.Spark��checkpoint��persist������ +checkpoint:�����ݳ־û������̣��ⲿϵͳ +persist:���Խ�RDD�־û������̣�Ҳ���Խ�RDD�־û����ڴ棬������������RDD�ij־û����� +ʹ�ó�����ij����������ر��ʱ�����������ر� +cache:�����ڴ���ֻ��һ�ݸ�����ֻ�����ڴ��heap�У����ᱣ����ʲôĿ¼����HDFS�ϣ��п����ںܶ�������ڴ��У��п����� ��һ̨�������ڴ��� +cache֮�����������������ӣ���Ϊ��ʵ�ʹ����Ĺ����У�cache�������ӵĻ���ÿ�ζ��ᴥ�����������̣�cache������ָ�� +���������棬�ǿ���Զ����ģ� + +11.Spark��broadcast�Ĵ������ +�㲥����ֻ����Driver���е�SparkContext��ִ�в��ҷ��͵�Executor�У�Executor�е�task�Ṳ����һ������������ֻ��ִ�ж����� +����ִ��д������д����ֻ������Driver�˽���ִ�еġ� +12.��˾��Spark�õ�������shuffle? +13.��α���Spark Shuffle�� +Spark shuffleʹ��shuffle��������������ģ�����˵�Ǿ����������shuffle�������,����˵reducebykey��Join������ӣ����ᴥ��shuffle���� +shuffle���ܲ��ԭ�� +shuffle�����У������ڵ��ϵ���ͬ��key����д�뱾���ļ��У�Ȼ��ͨ�������ڵ���Ҫͨ�����紫����ȡ�����ڵ��ϴ�������ͬkey�� +���ҽ���ͬ��key��ȡ��ͬһ���ڵ���оۺ�ʱ�� ����һ�����ܾ�����ͬ��key���࣬���½ڵ��ڴ治����������д��������ȥ�� +�����shuffle�����У����д����Ĵ���IO�IJ������Լ����ݵ�����䴫�䣬����IO���������ݴ�����Щ�ͻᵼ��shuffle�������ܵ��µ�ԭ�� +1)ʹ�ù㲥����+filter,broadcast+map������������join��ʱ�����һ��������ͬ��С������join��ʱ�򣬿���С����㲥��ȥ���ٽ���filter + +14.���ǹ�˾��Spark�������ĸ���Դ������ύ��˵һ���ύ���� +Spark on Yarn: + 1.��Ⱥ������Executor���л㱨��Դ������ע���ResourceManager + 2.�ͻ��˽����ύSpark Applicatioin���񣬲���ResourceManager����һ��ApplicationMaster�� + 3.ResourceManager���տͻ����ύ����󣬷���һ��NodeManagerȥ����AppMaster + 4.��NodeManager������һ��AppMaster�����AppMaster���Կ�����һ��Driver�� + 5.��ʼ��ʼ��Driver������ʼ��SparkCOntext,�����ύ��job��һϵ�е�RDD��ɵģ���ЩRDD���γ�DAG�����޻�ͼ�� + ��DAGSchedulerȥ����RDD֮��Ŀ�խ�������ֳ�һ����Stage����ЩStage�γ���һ������Task,�γ���TasKSet,���͸� + TaskScheduler. + 6.TaskScheduler���յ�TaskSet֮�󣬸�����Ҫִ�е�Task������������ִ�е���Դ��Driver��ResourceManagerȥ������Դ�� + 7.ResourceManager���յ�Driver����Դ����֮�󣬸����������һ��NodeManager��ȥ����Executor�� + 8.NodeManager�����Լ�Ҫִ����ҵ��Executor����Driver���з���ע�ᡣ + 9.Driver��������Ҫִ�е�Executor��Դ��TaskScheduler��TaskSet�е�Task��������ַ���Executor�еģ� + 10.Executor�е�ThreadPool�̳߳ؽ��յ�Task��ʼִ�У���ִ�к�Ľ�����͸�Driver + 11.Driver���н���Ļ��ա�Task�����ִ�С�Task����ķ��� +15.DataSet��DataFrame��RDD���ߵ����� +��ͬ�㣺���߶���Sparkƽ̨�µķֲ�ʽ�������ݼ���Ϊ�����������ṩ�ṩ�˱��� + ���߶��Ƕ��Ի��ƣ�ֻ������action�������ӵ�ʱ�򣬲Ż�ִ�У� +���� + RDD: + RDDһ���Spark mrlibʹ�� + RDD��֧��sql���� + Spark���˽�RDD�ڲ���ϸ�����ݽṹ + DataFrame: + DataFrameÿһ�ж��̶�ΪRow,ֻ��ͨ���������ܻ�ȡ�����ֶε�ֵ��֧��Spark Sql����,����ע����ʱ������ͼ�Ȳ��� + ֧��һЩ�ȽϷ���ı��淽ʽ������csv�� + DataSet: + DataFrame��DataSetӵ����ȫ��ͬ�ij�Ա������������ÿһ�����������Dz�ͬ��. + DataSet[Row]����DataFrame,ÿһ�е�������ROW����������ÿһ������Щ�ֶ�Ҳ��֪���ģ�ֻ������getAS()�ķ�ʽ��ȡ��Ӧ�������ֶ� + + DataFrame�Ƿdz����õģ���DataSet[Row]��֪�����еĸ����ֶο���ͨ��sql���в������Ծ����ֶν��н��� + + ת���� + DataFrame��DataSetתRDD��ֱ�ӵ�RDD��testDF.rdd;testDS.rdd; + RDDתDataFrame:���ȵ�����import spark.implicits._ ����toDF����, + RDDתDataSet:���ȶ���һ��case class �����ֱ࣬��toDS + DataSetתDataFrame:��case class ��װ��Row���ͣ�ֱ�ӵ���toDF, + + +16.Spark��Դ�Ż� +Executor���ڴ���Ҫ��Ϊ���飺 + ��һ�����taskִ�д���ʱ��ʹ�õģ�ռ��20% + �ڶ������Spark Shuffleʱ����һ��stage��ȡ��һ��stage�Ľ�������оۺ�ʱʹ�õģ�ռ��20% + ������RDD���г־û�ʱ����ʹ�ã�Ĭ��ռ��60% + + +����bypass shuffle���Ƶ������У� +repartition��coalase��sortbykey \ No newline at end of file diff --git "a/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" "b/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" new file mode 100644 index 000000000..2b1863184 --- /dev/null +++ "b/\345\214\227\344\272\254\347\247\221\345\255\246\351\231\242\350\275\257\344\273\266\344\270\255\345\277\203.md" @@ -0,0 +1,13 @@ +1.trait��������--scala +2.����������1T���ݵ��ļ����� +3.Spark������б +4.Spark���� +5.��дһ��wc +6.SparkС�ļ� +7.shuffle���� +8.ETL��� +9.Spark�ڴ���� +10.hive�Ż� + +��Ŀ...... + diff --git "a/\346\210\221\347\210\261\346\210\221\345\256\266.md" "b/\346\210\221\347\210\261\346\210\221\345\256\266.md" new file mode 100644 index 000000000..d98080b65 --- /dev/null +++ "b/\346\210\221\347\210\261\346\210\221\345\256\266.md" @@ -0,0 +1 @@ +sql \ No newline at end of file diff --git "a/\347\247\221\350\223\235\347\247\221\346\212\200.md" "b/\347\247\221\350\223\235\347\247\221\346\212\200.md" new file mode 100644 index 000000000..08b6e065e --- /dev/null +++ "b/\347\247\221\350\223\235\347\247\221\346\212\200.md" @@ -0,0 +1,5 @@ +1.��Ŀ����-�ܹ����� +2.�Լ��������Ŀ +3.Spark���� +4.����С�ļ� +̸��Ŀ........ From 2a386fbddb051c99eb70b98250d372799cee9511 Mon Sep 17 00:00:00 2001 From: java131313 Date: Thu, 4 Jul 2019 14:51:19 +0800 Subject: [PATCH 3/4] =?UTF-8?q?=E6=B7=BB=E5=8A=A0=E4=BA=86=E5=AD=A6?= =?UTF-8?q?=E7=94=9F=E6=95=B0=E6=8D=AE?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- student_all.txt | 3 +++ 1 file changed, 3 insertions(+) create mode 100644 student_all.txt diff --git a/student_all.txt b/student_all.txt new file mode 100644 index 000000000..08defb320 --- /dev/null +++ b/student_all.txt @@ -0,0 +1,3 @@ +zhangsan 89d +lisi 89d +wangwu 98d \ No newline at end of file From d2479fbfea546dffd5934aa89654b03cad89eca4 Mon Sep 17 00:00:00 2001 From: java131313 Date: Thu, 4 Jul 2019 16:32:23 +0800 Subject: [PATCH 4/4] ddd --- student_all.txt | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/student_all.txt b/student_all.txt index 08defb320..f6e2175cc 100644 --- a/student_all.txt +++ b/student_all.txt @@ -1,3 +1,4 @@ zhangsan 89d lisi 89d -wangwu 98d \ No newline at end of file +wangwu 98d +li 89d \ No newline at end of file