自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(296)
  • 收藏
  • 关注

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。

2023-11-14 10:54:43 6287 7

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。

2023-06-01 14:54:13 4450

原创 SeaTunnel MCP Server 入选《中国信通院开源商业产品及企业典型案例集(2025)》

在本次活动中,白鲸开源申报的「SeaTunnel MCP Server:分布式数据集成能力的“神经中枢”」案例成功入选《中国信通院开源商业产品及企业典型案例集(2025)》,并获得主办方颁发的奖牌。

2025-08-13 16:00:51 303

原创 Apache SeaTunnel 新定位!迈向多模态数据集成的统一工具

在人工智能时代,数据不再是简单的数字和表格那么简单了。

2025-08-12 11:45:21 813

原创 中国 Apache 项目 OpenRank 排行榜 Top 20:白鲸开源深度参与两大上榜项目

如果把开源世界比作一条奔涌的大河,过去十年里,中国开发者已经从“岸边试水”变成了“中流击水”。。而在影响力与贡献度的双轴坐标上,。从数量上来看,在全球 Apache 项目 OpenRank 排行榜 Top20 中,中国项目占据了 7 席。但中国开发者对于 Apache 基金会项目的参与不仅论“数量”,更是讲究“质量”。Apache 基金会各国开发者贡献度排行榜 Top 20 显示,中国在贡献度、开发者总数以及贡献仓库数量等多个维度均排名第一,充分体现了中国开发者在 Apache 项目上的深度参与。

2025-08-06 17:24:29 693

原创 从《中国开源年度报告》看中国开源力量的十年变迁中,Apache SeaTunnel 的跃迁

十年前,中国开发者更多扮演着开源世界的“搬运工”:下载、试用、反馈,贡献寥寥。转折点出现在 2019 年前后,ASF 孵化器里的中国面孔开始增多,SeaTunnel 正是在 2021 年迈入孵化器的大门。2023 年,中国开发者对 Apache 基金会的贡献度首次超过美国,2024 年则把优势扩大到“比美国少一半的人,却交出了近一半的贡献”。技术纵深——自研 Zeta 引擎在同样硬件下数据同步性能快 30%,让“国产替代”不再只是口号;场景纵深。

2025-08-06 17:07:57 973

原创 深入底层:如何优雅部署 SeaTunnel 分离集群到 Kubernetes

*准备 Kubernetes 环境:**确保已搭建并运行一个可用的 Kubernetes 集群,并安装所有必要的组件。**构建 SeaTunnel Docker 镜像:**如果没有二次开发需求,可直接使用官方提供的镜像。否则,在本地编译打包后,编写 Dockerfile 并构建 SeaTunnel 镜像。

2025-08-06 16:36:12 684

原创 社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!

为了帮助用户更顺利地迁移到 Apache SeaTunnel 平台,社区成员提出了一个实用建议:开发一个通用的配置转换工具,支持将多种数据集成工具的配置文件转换为 SeaTunnel 支持的 HOCON 或 JSON 格式。这样,用户在迁移过程中将更加省心高效。

2025-07-31 16:49:30 709

原创 破 400!Apache SeaTunnel 成为全球开发者共建热土

随着 Apache SeaTunnel 项目在全球数据集成领域的不断发展壮大,今天我们迎来了一个重要的里程碑 —— GitHub 贡献者数量正式突破 400 人!

2025-07-22 16:43:17 577

原创 SeaTunnel 云仓连接器使用指南 | AI 助手解读系列

最近体验了一下 Deepwiki 的 AI 文档生成功能,本文展示其自动生成的《SeaTunnel 云端数据仓库连接器》文档内容,欢迎大家一起“挑刺捉虫”,看看 AI 写技术文档到底靠不靠谱?

2025-07-22 16:42:15 761

原创 主键分布不均 SeaTunnel CDC 同步卡顿多日?这样优化终于通了!

我们项目使用seatunnel从业务库抽数到数仓(StarRocks),已经成功使用Mysql-CDC做了大量的实时同步。但最近在抽一个MySQL表的时候遇到了异常情况,作业启动之后,日志显示读写数量一直为0,且长时间不停止,运行6小时之后以checkpoint timeout异常停止。

2025-07-08 16:18:02 575

原创 Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践

在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。

2025-07-08 16:16:31 840

原创 白鲸开源斩获「创业新星企业奖」,双开源项目同步摘奖!

在近日举行的 2025 上海开源创新菁英荟上,白鲸开源凭借在开源生态建设与技术商业化的双重突破,荣获 「创业新星企业奖」。

2025-07-02 11:45:48 449

原创 喜讯!Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖

近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。

2025-07-02 11:44:53 326

原创 SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?

在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spark 引擎并行性修复、Paimon 精度兼容性增强、Mongo-CDC ExactlyOnce 默认值优化、Oracle DDL 类型支持补全等核心问题,稳定性和兼容性持续升级。

2025-07-01 17:32:25 1129

原创 SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!

Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。

2025-07-01 14:45:44 205

原创 一文吃透 SeaTunnel 线程共享机制与任务执行模型设计优化

Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深度剖析这些创新机制如何让 Zeta 引擎实现性能数倍提升。

2025-06-24 10:39:45 720

原创 客户案例 | 某大型综合性券商借助白鲸开源产品打造全链路智能调度与数据集成平台

在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。

2025-06-19 10:30:44 672

原创 SQL Server CDC 机制全解:如何用 SeaTunnel 构建高效实时数据同步方案

在构建 AI-Ready 企业级数据集成方案中,SQL Server 的 CDC(Change Data Capture)机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力,适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。

2025-06-17 10:54:59 880

原创 实测提速 60%!Maven Daemon 全面加速 SeaTunnel 编译打包效率

综合测试数据可见,在 SeaTunnel 项目编译打包场景中,采用 Maven Daemon(mvnd)方案较传统 Maven 构建模式展现出显著性能优势:通过守护进程复用 JVM 环境及并行计算优化,相同构建任务的执行效率提升约 60%,大幅缩短了项目编译打包耗时。

2025-06-17 10:49:55 434

原创 3分钟搞懂 Apache SeaTunnel CDC 数据同步

CDC(Change Data Capture)是一种用于跟踪数据库库变更事件(插入、更新、删除)中的行级更改,并将事件以发生的顺序通知到其他系统处理。在容灾场景下,CDC主要实现的是主备间的数据同步,即从主数据库到备数据库的数据实时同步。

2025-06-17 10:07:45 742

原创 【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题

技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。

2025-06-11 17:18:27 724

原创 如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析

本文将聚焦分析 SeaTunnel 中 MySQL-CDC 插件及其 Sink 输出的数据格式,并进一步探讨在实际场景中将 SeaTunnel 与 Databend 进行集成的可行性与实现路径。

2025-06-11 17:16:49 995

原创 多源多表写入、数据格式增强,SeaTunnel 2.3.11 重磅更新来了!

我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布!

2025-06-05 15:03:34 743

原创 【异常总结】SeaTunnel集群脑裂配置优化方法

会根据该参数中该参数和历史回收耗时来计算本次要回收多少Region才能耗时200ms,假如回收了一部分远远没有达到回收的效果,G1还有一个特殊处理方法,STW后进行回收,然后恢复系统线程,然后再次STW,执行混合回收掉一部分Region,‐XX:G1MixedGCCountTarget=8 (默认是8次),反复执行上述过程8次。eg:假设要回收400个Region,如果受限200ms,每次只能回收50个Region,反复8次刚好全部回收完毕,避免单次停顿回收STW时间太长。该检测器默认处于禁用状态。

2025-05-27 18:35:29 846

原创 自然语言×数据集成新范式:SeaTunnel MCP深度解读 | 附视频讲解

此前,社区推出一篇文章《Apache SeaTunnel MCP Server:让AI成为你的ETL助手》介绍了即将推出的SeaTunnel MCP Server 能力,受到了大家的热烈反响。为了让大家更加深入地了解这个项目,社区又邀请到了该项目的核心开发者在线上 Meetup 上通过视频演示进行了长达十多分钟的细节展示。本文将此次活动整理成文字,带领大家再来深度了解一下 SeaTunnel MCP 的设计理念、架构演进及未来规划,适合对智能数据集成与大模型交互感兴趣的技术开发者阅读。

2025-05-27 18:24:06 731

原创 一招解决SeaTunnel Excel中无法将数字类型转换成字符串类型的问题 | 附源码打包

针对SeaTunnel处理Excel数字类型强转为字符串时导致的类型异常,本文将详解如何通过修改源码,实现数字类型到数据库字符串字段的兼容推送,并通过Maven打包部署修复后的代码。

2025-05-27 18:16:40 333

原创 4月报 | SeaTunnel支持TDengine的多表Sink功能

在本月的众多更新中,最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持(由 @jia17 提交)。这一功能的引入,标志着 SeaTunnel 在面向时序数据库的数据写入能力上迈出了关键一步。

2025-05-27 18:14:32 828

原创 实战案例分享:如何基于Apache SeaTunnel全方位进行高效二次开发

使用Apache SeaTunnel进行二次开发的实践分享

2025-05-19 18:23:58 710

原创 Java资源管理与防止泄漏:从SeaTunnel源码看资源释放

资源管理是 Java 开发中常被忽视却至关重要的一环。本文从 SeaTunnel 案例出发,探讨 Java 中如何正确管理资源,防止资源泄漏。

2025-05-19 18:20:42 449

原创 WhaleTunnel 信创数据库适配能力全景图:打通国产数据生态的最后一公里

随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。

2025-05-14 15:58:43 689

原创 重磅预告 | Apache SeaTunnel接入MCP,即将解锁模型上下文协议超能力!

你是否好奇,大模型和数据集成平台能擦出怎样的火花?

2025-05-14 15:50:15 305

原创 他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!

最初是为了将 Elasticsearch 中的存量数据导出到其他存储系统。

2025-05-14 15:48:10 406

原创 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制

随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩展、易维护且具备复杂场景的数据处理与智能容错机制。本文将围绕实际功能扩展与设计理念,全面介绍相关技术实现。

2025-05-08 16:07:01 666

原创 SeaTunnel 2.3.9同步Oracle数据至Doris出现乱码?别慌,这么做

Oracle 字符集为 ASCII,如果想要同步数据到 Doris,就会出现中文乱码问题。那么出现这个问题该怎么办呢?实际上有办法解决。

2025-04-29 10:32:11 512

原创 从架构原理到落地实践:Apache SeaTunnel×Cloudberry数据集成全解读

本文将从数据集成的挑战谈起,深入解析 SeaTunnel 的设计理念与架构演进,并结合其在 Cloudberry 数据库中的实际集成应用,探讨未来面向高性能场景的扩展方向。

2025-04-29 10:28:26 1429

原创 Apache SeaTunnel 2025年3月份社区月度报告新鲜出炉!

各位热爱 Apache SeaTunnel 的小伙伴们,SeaTunnel 社区3月份月报来啦!刚加入社区的小伙伴们注意了!Apache SeaTunnel 正在迅猛发展,加入我们一起参与贡献,这将有利于提升数据同步的高可扩展性、高性能及高可靠性。

2025-04-23 15:19:11 1118

原创 万字长文 | Apache SeaTunnel 分离集群模式部署 K8s 集群实践

本文着重介绍了如何以推荐的分离集群模式(Separated Cluster Mode)部署k8s集群的实践,总结下来,部署过程主要包含以下步骤:准备 Kubernetes 环境确保已搭建并运行一个可用的 Kubernetes 集群,并安装所有必要的组件。构建 SeaTunnel Docker 镜像如果没有二次开发需求,可直接使用官方提供的镜像。否则,在本地编译打包后,编写 Dockerfile 并构建 SeaTunnel 镜像。配置Headless Service和Hazelcast集群。

2025-04-22 16:47:56 1346

原创 做到真正0丢失、0重复:Apache SeaTunnel 实现万亿级数据一致性全解密

Apache SeaTunnel通过精心设计的三维一致性架构,成功解决了企业级数据同步中最关键的数据一致性问题。这种设计既支持高吞吐量的批量数据处理,也保障了实时增量同步的精确性,为企业数据架构提供了坚实基础。端到端一致性:从数据读取到写入的全链路保障故障恢复能力:即使在极端条件下也能恢复并继续同步灵活的一致性级别:根据业务需求选择适当的一致性强度可验证的一致性:通过多种机制验证数据完整性。

2025-04-17 21:40:13 998

原创 欢迎 Apache SeaTunnel 新晋 Committer 王超

请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。您的全名:王超当前职位/角色:后端开发工程师主要技术方向:主要聚焦在数据分片、数据处理以及开源技术的研发领域加入SeaTunnel社区的时间:2024年5月最初是在工作项目中寻找更高效数据传输和处理方案去替代现有的方案,从而了解到Apache SeaTunnel。项目需求促使我深入调研,进而被其插件化架构和灵活的实现方式所吸引,从而开启了参与和贡献的旅程。

2025-04-17 15:23:56 710

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除