目录
内容概况
单机环境安装配置可以参考上一篇文章:Flink+Paimon+Hadoop+StarRocks(Doris)单机环境安装部署
本文主要是基于单机/本地的大数据湖仓环境,测试FlinkSQL + Paimon + StarRocks/ Doris实现的实时(分钟级)数据入湖,并通过StarRocks/Doris外表查询Paimon秒级OLAP查询。
文章还对「Flink Batch读Paimon」和「StarrRocks读Paimon」做了一些性能对比。
能力介绍
当前 StarRocks x Paimon 的能力主要包括:
支持各类存储系统,包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS
支持 HMS 以及阿里云 DLF 元数据管理系统
支持 Paimon 的 Primary Key 和 Append Only 表类型查询
支持 Paimon 系统表的查询,常见例如 Read Optimized 表,snapshots 表等
支持 Paimon 表和其他类型数据湖格式的关联查询
支持 Paimon 表和 StarRocks 内表的关联查询
支持 Data Cache 加速查询
支持基于 Paimon 表构建物化视图实现透明加速,查询改写等
支持 Paimon 表开启 Delete Vector 加速查询
对于 Primary Key 表类型,Paimon 社区对 Read Optimized 系统表做了完善的性能优化,可以与 Append Only 表一样充分利用 Native reader 的能力,得到直接查询 Paimon 数据的最佳性能。直接查询 Primary Key 表的情况下,若 Primary Key 表里包含没有做 Compaction 的数据,StarRocks 里会通过 JNI 调用 Java 读取这部分内容,性能会有一定的损耗。即使是这种情况,在我们收到用户反馈里,平均还是会有相对 Trino 达到3倍以上的性能提升。
环境介绍
组件 | 版本 |
Flink | 1.17.2 |
Paimon | 0.8.2 |
StarRocks | 3.2.11 |