Cara menyerap data dengan menggunakan Azure Data Factory di Azure Cosmos DB for PostgreSQL

BERLAKU UNTUK: Azure Cosmos DB for PostgreSQL (didukung oleh ekstensi database Citus ke PostgreSQL)

Azure Data Factory adalah layanan integrasi data dan ETL berbasis cloud. Ini memungkinkan Anda membuat alur kerja berbasis data untuk memindahkan dan mengubah data dalam skala besar.

Dengan menggunakan Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut alur) yang menyerap data dari penyimpanan data yang berbeda. Alur dapat berjalan secara lokal, di Azure, atau di penyedia cloud lain untuk analitik dan pelaporan.

Data Factory memiliki sink data untuk Azure Cosmos DB for PostgreSQL. Sink data memungkinkan Anda membawa data Anda (relasional, NoSQL, file data lake) ke dalam tabel Azure Cosmos DB for PostgreSQL untuk penyimpanan, pemrosesan, dan pelaporan.

Dataflow diagram for Azure Data Factory.

Penting

Data Factory tidak mendukung titik akhir privat untuk Azure Cosmos DB for PostgreSQL saat ini.

Data Factory untuk penyerapan real time

Berikut adalah alasan utama untuk memilih Azure Data Factory untuk menyerap data ke Azure Cosmos DB for PostgreSQL:

  • Mudah digunakan - Menawarkan lingkungan visual bebas kode untuk mengatur dan mengotomatiskan pergerakan data.
  • Kuat - Menggunakan kapasitas penuh bandwidth jaringan yang mendasar, hingga throughput 5 GiB/dtk.
  • Konektor bawaan - Mengintegrasikan semua sumber data Anda, dengan lebih dari 90 konektor bawaan.
  • Hemat biaya - Mendukung layanan cloud tanpa server berbayar sesuai pemakaian dan dikelola sepenuhnya yang menskalakan sesuai permintaan.

Langkah-langkah untuk menggunakan Data Factory

Dalam artikel ini, Anda membuat alur data dengan menggunakan antarmuka pengguna (UI) Data Factory. Alur di pabrik data ini menyalin data dari penyimpanan Azure Blob ke database. Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink, lihat tabel penyimpanan data yang didukung.

Di Data Factory, Anda dapat menggunakan aktivitas Salin untuk menyalin data di antara penyimpanan data yang terletak di lokal dan di cloud ke Azure Cosmos DB for PostgreSQL. Jika Anda baru menggunakan Data Factory, berikut adalah panduan cepat tentang cara memulai:

  1. Setelah Data Factory disediakan, buka pabrik data Anda dan luncurkan Azure Data Factory Studio. Anda melihat halaman selamat datang Data Factory seperti yang ditunjukkan dalam gambar berikut:

    Screenshot showing the landing page of Azure Data Factory.

  2. Pada beranda Azure Data Factory Studio, pilih Orkestrasi.

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. Di bawah Properti, masukkan nama untuk alur.

  4. Di kotak alat Aktivitas , perluas kategori Pindahkan &transformasi , dan seret dan letakkan aktivitas Salin data ke permukaan perancang alur. Di bagian bawah panel perancang, pada tab Umum , masukkan nama untuk aktivitas salin.

    Screenshot showing a pipeline in Azure Data Factory.

  5. Konfigurasikan Sumber.

    1. Pada halaman Aktivitas , pilih tab Sumber . Pilih Baru untuk membuat himpunan data sumber.

    2. Di kotak dialog Himpunan Data Baru, pilih Azure Blob Storage, lalu pilih Lanjutkan.

    3. Pilih jenis format data Anda, lalu pilih Lanjutkan.

    4. Pada halaman Atur properti , di bawah Layanan tertaut, pilih Baru.

    5. Pada halaman Layanan tertaut baru, masukkan nama untuk layanan tertaut, dan pilih akun penyimpanan Anda dari daftar Nama akun penyimpanan.

      Screenshot that shows configuring Source in Azure Data Factory.

    6. Di bawah Uji koneksi, pilih Ke jalur file, masukkan kontainer dan direktori untuk menyambungkan, lalu pilih Uji koneksi.

    7. Pilih Buat untuk menyimpan konfigurasi.

    8. Pada layar Atur properti , pilih OK.

  6. Konfigurasikan Sink.

    1. Pada halaman Aktivitas , pilih tab Sink . Pilih Baru untuk membuat himpunan data sink.

    2. Di kotak dialog Himpunan Data Baru, pilih Azure Database for PostgreSQL, lalu pilih Lanjutkan.

    3. Pada halaman Atur properti , di bawah Layanan tertaut, pilih Baru.

    4. Pada halaman Layanan tertaut baru, masukkan nama untuk layanan tertaut, dan pilih Masukkan secara manual dalam metode Pemilihan akun.

    5. Masukkan nama koordinator kluster Anda di bidang Nama domain yang sepenuhnya memenuhi syarat. Anda dapat menyalin nama koordinator dari halaman Gambaran Umum kluster Azure Cosmos DB for PostgreSQL Anda.

    6. Biarkan port default 5432 di bidang Port untuk koneksi langsung ke koordinator atau ganti dengan port 6432 untuk menyambungkan ke port PgBouncer terkelola .

    7. Masukkan nama database di kluster Anda dan berikan kredensial untuk menyambungkannya.

    8. Pilih SSL di daftar drop-down Metode enkripsi.

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. Pilih Uji koneksi di bagian bawah panel untuk memvalidasi konfigurasi sink.

    10. Pilih Buat untuk menyimpan konfigurasi.

    11. Pada layar Atur properti , pilih OK.

    12. Di tab Sink pada halaman Aktivitas , pilih Buka di samping daftar drop-down Himpunan data Sink dan pilih nama tabel pada kluster tujuan tempat Anda ingin menyerap data.

    13. Di bawah Metode tulis, pilih Salin perintah.

    Screenshot that shows selecting the table and Copy command.

  7. Dari bilah alat di atas kanvas, pilih Validasi untuk memvalidasi pengaturan saluran. Perbaiki kesalahan apa pun, validasi ulang, dan pastikan bahwa alur berhasil divalidasi.

  8. Pilih Debug dari toolbar untuk menjalankan alur.

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. Setelah alur berhasil dijalankan, di toolbar bagian atas, pilih Terbitkan semua. Tindakan ini menerbitkan entitas (himpunan data dan alur) yang Anda buat ke Data Factory.

Memanggil prosedur tersimpan di Data Factory

Dalam beberapa skenario tertentu, Anda mungkin ingin memanggil prosedur/fungsi tersimpan untuk mendorong data agregat dari tabel penahapan ke tabel ringkasan. Data Factory tidak menawarkan aktivitas prosedur tersimpan untuk Azure Cosmos DB for PostgreSQL, tetapi sebagai solusinya, Anda dapat menggunakan aktivitas Pencarian dengan kueri untuk memanggil prosedur tersimpan seperti yang ditunjukkan di bawah ini:

Screenshot that shows calling a procedure in Azure Data Factory.

Langkah berikutnya