Bagikan melalui


Menyambungkan ke StreamSets

Penting

Fitur ini ada di Pratinjau Publik.

StreamSets membantu Anda mengelola dan memantau aliran data Anda sepanjang siklus hidupnya. Integrasi asli StreamSets dengan Azure Databricks dan Delta Lake memungkinkan Anda menarik data dari berbagai sumber dan mengelola alur Anda dengan mudah.

Untuk demonstrasi umum StreamSets, tonton video YouTube berikut (10 menit).

Berikut adalah langkah-langkah untuk menggunakan StreamSets dengan Azure Databricks.

Langkah 1: Hasilkan token akses pribadi Databricks

StreamSets mengautentikasi dengan Azure Databricks menggunakan token akses pribadi Azure Databricks.

Catatan

Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan, bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

Langkah 2: Siapkan kluster untuk mendukung kebutuhan integrasi

StreamSets akan menulis data ke jalur Azure Data Lake Storage dan kluster integrasi Azure Databricks akan membaca data dari lokasi tersebut. Oleh karena itu kluster integrasi memerlukan akses aman ke jalur Azure Data Lake Storage.

Akses aman ke jalur Azure Data Lake Storage

Untuk mengamankan akses ke data di Azure Data Lake Storage (ADLS), Anda dapat menggunakan kunci akses akun penyimpanan Azure (disarankan) atau perwakilan layanan ID Microsoft Entra.

Gunakan kunci akses akun penyimpanan Azure

Anda dapat mengonfigurasi kunci akses akun penyimpanan di kluster integrasi sebagai bagian dari konfigurasi Spark. Pastikan bahwa akun penyimpanan memiliki akses ke kontainer ADLS dan sistem file yang digunakan untuk pentahapan data dan kontainer ADLS dan sistem file tempat Anda ingin menulis tabel Delta Lake. Untuk mengonfigurasi kluster integrasi untuk menggunakan kunci, ikuti langkah-langkah dalam Koneksi ke Azure Data Lake Storage Gen2 dan Blob Storage.

Menggunakan perwakilan layanan ID Microsoft Entra

Anda dapat mengonfigurasi perwakilan layanan pada kluster integrasi Azure Databricks sebagai bagian dari konfigurasi Spark. Pastikan bahwa perwakilan layanan memiliki akses ke kontainer ADLS yang digunakan untuk pentahapan data dan kontainer ADLS tempat Anda ingin menulis tabel Delta. Untuk mengonfigurasi kluster integrasi agar menggunakan perwakilan layanan, ikuti langkah-langkah di Mengakses ADLS Gen2 dengan perwakilan layanan.

Tentukan konfigurasi kluster

  1. Atur Mode Kluster ke Standar.

  2. Atur Versi Databricks Runtime ke Runtime: 6.3 atau lebih tinggi.

  3. Aktifkan penulisan yang dioptimalkan dan pemadatan otomatis dengan menambahkan properti berikut ke konfigurasi Spark Anda:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Konfigurasikan kluster Anda sesuai dengan kebutuhan integrasi dan penskalaan Anda.

Untuk detail konfigurasi kluster, lihat Referensi konfigurasi komputasi.

Lihat Mendapatkan detail koneksi untuk sumber daya komputasi Azure Databricks untuk langkah-langkah mendapatkan URL JDBC dan jalur HTTP.

Langkah 3: Dapatkan detail sambungan JDBC dan ODBC untuk menyambungkan ke kluster

Untuk menghubungkan kluster Azure Databricks ke StreamSets, Anda memerlukan properti koneksi JDBC/ODBC berikut:

  • URL JDBC
  • Jalur HTTP

Langkah 4: Dapatkan StreamSets untuk Azure Databricks

Daftar untuk StreamSets untuk Databricks, jika Anda belum memiliki akun StreamSets. Anda dapat memulai secara gratis dan meningkatkan saat Anda siap; lihat Harga Platform DataOps StreamSets.

Langkah 5: Pelajari cara menggunakan StreamSets untuk memuat data ke Delta Lake

Mulailah dengan contoh alur atau lihat solusi StreamSets untuk mempelajari cara membuat alur yang menyerap data ke Delta Lake.

Sumber Daya Tambahan:

Dukungan