Questa pagina descrive come configurare Datastream per la replica nelle tabelle BigLake Iceberg in BigQuery.
Le tabelle BigLake Iceberg offrono la stessa esperienza completamente gestita delle tabelle BigQuery standard, ma archiviano i dati nei bucket Cloud Storage di proprietà del cliente nel formato di tabella Apache Iceberg e nel formato di file Parquet. Puoi eseguire query e analizzare i dati utilizzando le funzionalità di BigQuery mantenendo i dati nei tuoi bucket di archiviazione.
Metadati tabelle
Datastream aggiunge una colonna STRUCT denominata datastream_metadata a ogni tabella scritta nella destinazione BigQuery.
La colonna datastream_metadata contiene i seguenti campi:
UUID: questo campo ha il tipo di datiSTRING.SOURCE_TIMESTAMP: questo campo ha il tipo di datiINTEGER.CHANGE_SEQUENCE_NUMBER: questo campo ha il tipo di datiSTRING. È un numero di sequenza interno utilizzato da Datastream per ogni evento di modifica.CHANGE_TYPE: questo campo ha il tipo di datiSTRING. Indica il tipo di evento di modifica. Per la modalità di scrittura di sola aggiunta, il valore èINSERT.SORT_KEYS: questo campo contiene un array di valoriSTRING. Puoi utilizzare i valori per ordinare gli eventi di modifica.
Configura lo streaming nelle tabelle BigLake Iceberg
Per configurare lo stream in modo che importi i dati nelle tabelle BigLake Iceberg:
- Crea un bucket Cloud Storage in cui vuoi archiviare i dati.
- Crea una connessione alle risorse Cloud in BigQuery. Per informazioni su come creare questo tipo di connessione, consulta Crea e configura una connessione a una risorsa Cloud.
Ottieni l'identificatore del account di servizio di connessione:
bq show --location=LOCATION --connection --project_id=PROJECT_ID CONNECTION_NAMEConcedi l'accesso alla connessione a una risorsa Cloud al bucket Cloud Storage che hai creato. Per farlo, aggiungi l'autorizzazione IAM
storage.adminal account di servizio di connessione:gcloud storage buckets add-iam-policy-binding gs://YOUR_GCS_BUCKET \ --member=serviceAccount:YOUR_SERVICE_ACCOUNT_ID \ --role=roles/storage.adminCrea uno stream di tabelle BigLake Iceberg.
Per informazioni su come creare uno stream di tabelle BigLake Iceberg utilizzando la console Google Cloud , consulta Creare uno stream.
Per informazioni su come creare una richiesta per trasmettere dati in streaming alle tabelle BigLake Iceberg utilizzando REST,
Google Cloud CLIo Terraform, consulta Gestire i flussi utilizzando l'API.
Passaggi successivi
- Per scoprire di più sugli stream, consulta la sezione Ciclo di vita dello stream.
- Per scoprire come creare uno stream, consulta Crea uno stream.
- Per scoprire come creare un profilo di connessione che puoi utilizzare con un flusso di tabelle BigLake Iceberg, consulta Creare un profilo di connessione per BigQuery.