Ringkasan Cloud Data Fusion
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Cloud Data Fusion adalah layanan integrasi data perusahaan berbasis cloud dan terkelola sepenuhnya untuk pembuatan dan pengelolaan pipeline data secara cepat. Antarmuka web Cloud Data Fusion memungkinkan Anda membangun solusi integrasi data yang dapat diskalakan. Alat ini memungkinkan Anda terhubung ke berbagai sumber data, mentransformasikan data, lalu mentransfernya ke berbagai sistem tujuan, tanpa harus mengelola infrastruktur.
Cloud Data Fusion didukung oleh project open source
CDAP.
Mulai menggunakan Cloud Data Fusion
Anda dapat mulai menjelajahi Cloud Data Fusion dalam hitungan menit.
Komponen utama Cloud Data Fusion dijelaskan di bagian berikut.
Project tenant
Kumpulan layanan yang diperlukan untuk membangun dan mengatur pipeline Cloud Data Fusion serta menyimpan metadata pipeline disediakan dalam project tenant, di dalam unit tenant. Project tenant terpisah dibuat untuk setiap project pelanggan, tempat instance Cloud Data Fusion disediakan. Project tenant mewarisi
semua konfigurasi jaringan dan firewall dari project pelanggan.
Cloud Data Fusion: Konsol
Konsol Cloud Data Fusion, yang juga disebut sebagai bidang kontrol, adalah
sekumpulan operasi API
dan antarmuka web yang menangani instance Cloud Data Fusion itu sendiri,
seperti membuat, menghapus, memulai ulang, dan memperbaruinya.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, yang juga disebut sebagai data plane, adalah serangkaian operasi REST API dan antarmuka web yang menangani pembuatan, eksekusi, dan pengelolaan pipeline serta artefak terkait.
Konsep
Bagian ini memperkenalkan beberapa konsep inti Cloud Data Fusion.
Instance Cloud Data Fusion adalah deployment unik dari
Cloud Data Fusion. Untuk mulai menggunakan Cloud Data Fusion, Anda
membuat instance Cloud Data Fusion melalui
Google Cloud konsol.
Anda dapat membuat beberapa instance dalam satu project Google Cloud konsol
dan dapat menentukan Google Cloud region untuk membuat instance
Cloud Data Fusion.
Setiap instance Cloud Data Fusion berisi deployment Cloud Data Fusion yang unik dan independen yang berisi serangkaian layanan, yang menangani pengelolaan siklus proses, orkestrasi, koordinasi, dan pengelolaan metadata pipeline. Layanan ini berjalan menggunakan
resource yang berjalan lama di
project tenant.
Namespace adalah pengelompokan logis aplikasi, data, dan
metadata terkait dalam instance Cloud Data Fusion. Anda dapat menganggap
namespace sebagai partisi instance. Dalam satu instance,
satu namespace menyimpan data dan metadata entity secara terpisah
dari namespace lain.
Pipeline adalah cara untuk mendesain data secara visual dan mengontrol
alur untuk mengekstrak, mengubah, menggabungkan, mengagregasi, dan memuat data dari
berbagai sumber data lokal dan cloud.
Membangun pipeline memungkinkan Anda membuat alur kerja pemrosesan data yang kompleks yang dapat membantu Anda memecahkan masalah penyerapan, integrasi, dan migrasi data. Anda dapat menggunakan Cloud Data Fusion untuk membangun pipeline batch dan real-time, bergantung pada kebutuhan Anda.
Pipeline memungkinkan Anda mengekspresikan alur kerja pemrosesan data menggunakan
alur data logis, sementara Cloud Data Fusion menangani semua
fungsi yang diperlukan untuk dijalankan secara fisik di lingkungan
eksekusi.
Di halaman Studio antarmuka web Cloud Data Fusion,
pipeline direpresentasikan sebagai serangkaian node yang disusun dalam directed
acyclic graph (DAG), yang membentuk alur satu arah.
Node merepresentasikan berbagai tindakan yang dapat Anda lakukan dengan
pipeline, seperti membaca dari sumber, melakukan transformasi
data, dan menulis output ke sink. Anda dapat mengembangkan pipeline data di antarmuka web Cloud Data Fusion dengan menghubungkan sumber, transformasi, sink, dan node lainnya.
Plugin adalah modul yang dapat disesuaikan yang dapat digunakan untuk memperluas
kemampuan Cloud Data Fusion.
Cloud Data Fusion menyediakan plugin untuk sumber, transformasi,
agregat, sink, pengumpul error, penayang pemberitahuan, tindakan, dan
tindakan pasca-operasi.
Plugin terkadang disebut sebagai node, biasanya dalam
konteks antarmuka web Cloud Data Fusion.
Untuk menemukan dan mengakses plugin Cloud Data Fusion yang populer, lihat
Plugin Cloud Data Fusion.
Di antarmuka web Cloud Data Fusion, untuk menjelajahi plugin, pipeline
sampel, dan integrasi lainnya, klik Hub. Saat versi baru plugin dirilis, plugin tersebut akan terlihat di Hub di semua instance yang kompatibel. Hal ini berlaku meskipun instance dibuat sebelum
plugin dirilis.
Cloud Data Fusion menyediakan cluster Managed Service for Apache Spark sementara di project pelanggan Anda di awal eksekusi pipeline, menjalankan pipeline menggunakan Spark di cluster, lalu menghapus cluster setelah eksekusi pipeline selesai.
Atau, jika Anda mengelola cluster Managed Service for Apache Spark
di lingkungan yang terkontrol, melalui teknologi seperti Terraform, Anda
juga dapat mengonfigurasi Cloud Data Fusion agar tidak menyediakan cluster. Di
lingkungan tersebut, Anda dapat menjalankan pipeline terhadap cluster
Managed Service for Apache Spark yang ada.
Profil komputasi menentukan cara dan tempat pipeline
dieksekusi. Profil merangkum informasi apa pun yang diperlukan untuk menyiapkan dan
menghapus lingkungan eksekusi fisik pipeline.
Misalnya, profil komputasi mencakup hal berikut:
Penyedia eksekusi
Resource (memori dan CPU)
Jumlah node minimum dan maksimum
Nilai lainnya
Profil diidentifikasi berdasarkan nama dan harus diberi penyedia
dan konfigurasi terkaitnya. Profil dapat ada di tingkat instance Cloud Data Fusion atau di tingkat namespace.
Profil komputasi default Cloud Data Fusion adalah
Penskalaan Otomatis.
Pipeline data yang dapat digunakan ulang di Cloud Data Fusion memungkinkan pembuatan
satu pipeline yang dapat menerapkan pola integrasi data ke berbagai
kasus penggunaan dan set data.
Pipeline yang dapat digunakan kembali memberikan kemampuan pengelolaan yang lebih baik dengan menetapkan sebagian besar konfigurasi pipeline pada waktu eksekusi, bukan meng-hard-code-nya pada waktu desain.
Cloud Data Fusion mendukung pembuatan pemicu pada pipeline data (disebut pipeline downstream), agar pipeline tersebut berjalan setelah penyelesaian satu atau beberapa pipeline berbeda (disebut pipeline upstream). Anda memilih kapan pipeline hilir berjalan—misalnya, saat berhasil, gagal, berhenti, atau kombinasi apa pun dari proses pipeline hulu.
Pemicu berguna dalam kasus berikut:
Membersihkan data Anda sekali, lalu menyediakannya untuk
beberapa pipeline hilir untuk digunakan.
Membagikan informasi, seperti argumen runtime dan konfigurasi
plugin, antar-pipeline. Hal ini disebut konfigurasi
Payload.
Memiliki serangkaian pipeline dinamis yang dapat berjalan menggunakan data
per jam, hari, minggu, atau bulan, alih-alih menggunakan pipeline statis
yang harus diperbarui setiap kali dijalankan.
Resource Cloud Data Fusion
Jelajahi resource Cloud Data Fusion:
Catatan rilis memberikan log perubahan fitur, perubahan, dan penghentian penggunaan
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2026-04-24 UTC."],[],[]]