Canal CDC

原创已于 2023-01-09 15:52:08 修改 · 1.8k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java #大数据 #OLAP

于 2022-03-27 15:05:59 首次发布

hadoop大数据同时被 2 个专栏收录

99 篇文章

订阅专栏

CDC

2 篇文章

订阅专栏

本文介绍Canal中间件，一种基于MySQL Binlog解析的数据同步工具，适用于阿里系公司的国内外数据库同步需求。涵盖Canal的工作原理、使用场景及配置教程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1.Canal介绍

阿里巴巴 B2B 公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了同步杭州和美国异地机房的需求，从 2010 年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。
Canal 是用 Java 开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前。Canal 主要支持了 MySQL 的 Binlog 解析，解析完成后才利用 Canal Client 来处理获得的相关数据。（数据库同步需要阿里的 Otter 中间件，基于 Canal）。

1.1 Mysql 的binlog介绍

MySQL 的二进制日志可以说 MySQL 最重要的日志了，它记录了所有的 DDL 和 DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL 的二进制日志是事务安全型的。

binlog可分为STATEMENT, MIXED, ROW

statement：语句级，binlog 会记录每次一执行写操作的语句。相对 row 模式节省空间，但是可能产生不一致性，比如“update tt set create_date=now()”，如果用 binlog 日志进行恢复，由于执行时间不同可能产生的数据就不同。
row：行级， binlog 会记录每次操作后每行记录的变化。
mixed：statement 的升级版，一定程度上解决了，因为一些情况而造成的 statement模式不一致问题，默认还是 statement，在某些情况下譬如：当函数中包含 UUID() 时；包含AUTO_INCREMENT 字段的表被更新时；执行 INSERT DELAYED 语句时；用 UDF 时；会按照ROW 的方式进行处理

Canal 想做监控分析，选择 row 格式比较合适。

1.2 Canal 的运行原理

在这里插入图片描述
Mysql的主从复制:

Master改变数据, 写入到二进制文件中
slave 从master 发送dump协议, 读取二进制文件到自己的relay log
slave读取relay log到自己的数据库

canal就是将自己伪装为slave

1.3 Canal使用场景

1> 进行异地数据库之间的同步框架

在这里插入图片描述
2> 更新缓存, 实现缓存和数据库的一致性

3> 抓取业务表的新增变化数据，用于制作实时统计（我们就是这种场景）

2.Mysql 的配置准备

CREATE TABLE user_info(
`id` VARCHAR(255),
`name` VARCHAR(255),
`sex` VARCHAR(255)
);

vim /etc/my.cnf

在这里插入图片描述

systemctl restart mysqld

3.Canal 的准备

在这里插入图片描述
修改配置

在这里插入图片描述

在这里插入图片描述

防火墙关闭

在这里插入图片描述

4.Canal 数据结构分析

在这里插入图片描述
发送的是Message, 由很多Entry组成, 一个Entry对应一个Sql命令

Entry: TableName, EntryTyple, StoreValue, RowChange

RowChange为反序列化后的数据, 如果要使用的话必须通过StoreValue反序列化为RowChange后才可以使用

5.Java 代码

maven

       <dependency>
            <groupId>com.alibaba.otter</groupId>
            <artifactId>canal.client</artifactId>
            <version>1.0.25</version>
        </dependency>

public class Test {
    public static void main(String[] args)throws Exception {
        // Canal中的数据结构: Message - Entry(对应一个Sql) - TableName, EntryType, StoreValue-RowChange
        CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress("192.168.66.66", 11111), "example", "", "");

        while (true){
            // 连接
            connector.connect();
            // 订阅
            connector.subscribe("cdc_test.*");
            // 获取数据
            Message message = connector.get(100);

            // 获取Entry 集合
            List<CanalEntry.Entry> entries = message.getEntries();

            if (entries.size() <= 0){
                System.out.println("稍等一会.........");
                Thread.sleep(1000);
            }else {
                for (CanalEntry.Entry entry : entries) {
                    // 1.获取表名
                    String tableName = entry.getHeader().getTableName();
                    // 2.获取类型
                    CanalEntry.EntryType entryType = entry.getEntryType();
                    // 3.获取序列化后的数据
                    ByteString storeValue = entry.getStoreValue();
                    // 判断当前的类型是否为Row
                    if (CanalEntry.EntryType.ROWDATA.equals(entryType)){
                        // 5.反序列化数据
                        CanalEntry.RowChange rowChange = CanalEntry.RowChange.parseFrom(storeValue);
                        // 6.获取EventType
                        CanalEntry.EventType eventType = rowChange.getEventType();
                        // 7.获取数据集
                        List<CanalEntry.RowData> rowDatasList = rowChange.getRowDatasList();
                        for (CanalEntry.RowData rowData : rowDatasList) {
                            JSONObject beforeJson = new JSONObject();
                            List<CanalEntry.Column> beforeColumnsList = rowData.getBeforeColumnsList();
                            for (CanalEntry.Column column : beforeColumnsList) {
                                beforeJson.put(column.getName(), column.getValue());
                            }

                            JSONObject afterJson = new JSONObject();
                            List<CanalEntry.Column> afterColumnsList = rowData.getAfterColumnsList();
                            for (CanalEntry.Column column : afterColumnsList) {
                                afterJson.put(column.getName(), column.getValue());
                            }
                            System.out.println("Table：" + tableName + "eventType: " + eventType + "before: " + beforeJson + "after: " + afterJson);


                        }
                    }else {
                        System.out.println("当前数据类型为：" + entryType);
                    }

                }
            }
        }
    }
}

在这里插入图片描述

6.Kafka 测试

修改 canal.properties 中 canal 的输出 model，默认 tcp，改为输出到 kafka

在这里插入图片描述
修改 Kafka 集群的地址

canal.mq.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092

修改 instance.properties 输出到 Kafka 的主题以及分区数

# mq config
canal.mq.topic=canal_test
canal.mq.partitionsNum=1
# hash partition config
#canal.mq.partition=0
#canal.mq.partitionHash=mytest.person:id,mytest.role:id

[atguigu@hadoop102 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic canal_test

向数据库添加数据后

在这里插入图片描述