Menyambungkan ke Infoworks
Penting
Fitur ini ada di Pratinjau Publik.
Infoworks DataFoundry adalah sistem operasi dan orkestrasi data perusahaan otomatis yang berjalan secara native di Azure Databricks dan memanfaatkan kemampuan penuh Azure Databricks untuk memberikan solusi mudah guna onboarding data—yaitu langkah pertama yang penting dalam tahapan mengoperasionalkan data lake Anda. DataFoundry tidak hanya mengotomatiskan penyerapan data, tetapi juga mengotomatiskan fungsi utama yang harus menyertai penyerapan dalam membangun fondasi untuk keperluan analitik. Onboarding data dengan DataFoundry mengotomatiskan:
- Penyerapan data: dari semua sumber data perusahaan dan eksternal
- Sinkronisasi data: CDC untuk menjaga data agar tetap sinkron dengan sumber
- Tata kelola data: katalogisasi, silsilah data, manajemen metadata, audit, dan riwayat
Berikut adalah langkah-langkah dalam menggunakan Infoworks dengan Azure Databricks.
Langkah 1: Hasilkan token akses pribadi Databricks
Infoworks mengautentikasi dengan Azure Databricks dengan menggunakan token akses pribadi Azure Databricks.
Catatan
Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan, bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.
Langkah 2: Siapkan kluster untuk mendukung kebutuhan integrasi
Infoworks akan menulis data ke jalur Azure Data Lake Storage dan kluster integrasi Azure Databricks akan membaca data dari lokasi tersebut. Oleh karena itu kluster integrasi memerlukan akses aman ke jalur Azure Data Lake Storage.
Akses aman ke jalur Azure Data Lake Storage
Untuk mengamankan akses ke data di Azure Data Lake Storage (ADLS), Anda dapat menggunakan kunci akses akun penyimpanan Azure (disarankan) atau perwakilan layanan ID Microsoft Entra.
Gunakan kunci akses akun penyimpanan Azure
Anda dapat mengonfigurasi kunci akses akun penyimpanan di kluster integrasi sebagai bagian dari konfigurasi Spark. Pastikan bahwa akun penyimpanan memiliki akses ke kontainer ADLS dan sistem file yang digunakan untuk pentahapan data dan kontainer ADLS dan sistem file tempat Anda ingin menulis tabel Delta Lake. Untuk mengonfigurasi kluster integrasi untuk menggunakan kunci, ikuti langkah-langkah dalam Koneksi ke Azure Data Lake Storage Gen2 dan Blob Storage.
Menggunakan perwakilan layanan ID Microsoft Entra
Anda dapat mengonfigurasi perwakilan layanan pada kluster integrasi Azure Databricks sebagai bagian dari konfigurasi Spark. Pastikan bahwa perwakilan layanan memiliki akses ke kontainer ADLS yang digunakan untuk pentahapan data dan kontainer ADLS tempat Anda ingin menulis tabel Delta. Untuk mengonfigurasi kluster integrasi agar menggunakan perwakilan layanan, ikuti langkah-langkah di Mengakses ADLS Gen2 dengan perwakilan layanan.
Tentukan konfigurasi kluster
Atur Mode Kluster ke Standar.
Atur Versi Runtime bahasa umum Databricks ke versi runtime bahasa umum Databricks.
Aktifkan penulisan yang dioptimalkan dan pemadatan otomatis dengan menambahkan properti berikut ke konfigurasi Spark Anda:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Konfigurasikan kluster Anda sesuai dengan kebutuhan integrasi dan penskalaan Anda.
Untuk detail konfigurasi kluster, lihat Referensi konfigurasi komputasi.
Lihat Mendapatkan detail koneksi untuk sumber daya komputasi Azure Databricks untuk langkah-langkah mendapatkan URL JDBC dan jalur HTTP.
Langkah 3: Dapatkan detail sambungan JDBC dan ODBC untuk menyambungkan ke kluster
Untuk menyambungkan kluster Azure Databricks ke Infoworks, Anda memerlukan properti sambungan JDBC/ODBC berikut:
- URL JDBC
- Jalur HTTP
Langkah 4: Dapatkan Infoworks untuk Azure Databricks
Buka Infoworks untuk mempelajari lebih lanjut dan mendapatkan demo.