Menggunakan Azure Databricks dalam analitik skala cloud di Azure

Azure Databricks adalah platform analitik data yang dioptimalkan untuk platform Microsoft Azure Cloud Services. Azure Databricks menawarkan dua lingkungan untuk mengembangkan aplikasi intensif data:

  • Azure Databricks SQL yang memungkinkan Anda menjalankan kueri SQL ad-hoc cepat di data lake Anda.

  • Azure Databricks Ilmu Data & Engineering (terkadang disebut hanya "Ruang Kerja") adalah platform analitik berdasarkan Apache Spark. Ini terintegrasi dengan Azure untuk menyediakan pengaturan satu klik, alur kerja yang efisien, dan ruang kerja interaktif yang memungkinkan kolaborasi antara teknisi data, ilmuwan data, dan teknisi pembelajaran mesin.

Untuk analitik skala cloud, kita akan fokus pada Azure Databricks Ilmu Data & Engineering.

Gambaran Umum

Untuk setiap zona pendaratan data yang Anda sebarkan, Anda memiliki opsi untuk menyebarkan dua ruang kerja bersama. Satu untuk penyerapan agnostik data dan satu lagi untuk analitik.

  • Ruang kerja rekayasa Azure Databricks untuk penyerapan dan pemrosesan akan terhubung ke Azure Data Lake melalui perwakilan layanan Azure. Ini dipanggil oleh penyerapan agnostik data.
  • Ruang kerja analitik Azure Databricks dapat disediakan untuk semua ilmuwan data dan tim operasi data. Ruang kerja ini akan terhubung ke Azure Data Lake dengan menggunakan autentikasi pass-through Microsoft Entra. Anda berbagi ruang kerja analitik dan ilmu data Azure Databricks di seluruh zona landasan data dengan semua pengguna yang memiliki akses ke ruang kerja.

Jika Anda memiliki mesin penyerapan agnostik data otomatis, ruang kerja rekayasa Azure Databricks menggunakan instans Azure Key Vault yang dibuat di grup sumber daya layanan metadata Azure untuk menjalankan alur penyerapan data dari mentah menjadi diperkaya.

Ruang kerja analitik Azure Databricks harus memiliki kebijakan kluster yang mengharuskan Anda membuat kluster konkurensi tinggi. Jenis kluster ini memungkinkan data lake untuk dijelajahi dengan menggunakan pass-through kredensial Microsoft Entra. Untuk informasi selengkapnya, lihat Kontrol akses dan konfigurasi data lake di Azure Data Lake Storage.

Mengonfigurasi Azure Databricks

Penyebaran Azure Databricks sebagian berbasis parameter melalui templat Azure Resource Manager dan skrip YAML, tetapi juga memerlukan beberapa intervensi manual untuk mengonfigurasi semua ruang kerja.

Semua ruang kerja Azure Databricks harus menggunakan paket premium, yang menyediakan fitur yang diperlukan berikut:

  • Penskalaan otomatis komputasi yang dioptimalkan
  • Autentikasi pass-through kredensial Microsoft Entra
  • Autentikasi bersyarat
  • Kontrol akses berbasis peran untuk buku catatan, kluster, pekerjaan, dan tabel
  • Log audit

Untuk menyelaraskan dengan analitik skala cloud, sebaiknya semua ruang kerja memiliki opsi penyebaran default berikut yang dikonfigurasi:

  • Ruang kerja Azure Databricks terhubung ke instans metastore Apache Hive eksternal di zona landasan data.
  • Mengonfigurasi setiap ruang kerja untuk mengirim pembuatan log diagnostik Databricks ke Azure Log Analytics di databricks-monitoring-rg
  • Terapkan kebijakan kluster untuk membatasi kemampuan membuat kluster berdasarkan satu set aturan. Untuk informasi selengkapnya, lihat Mengelola kebijakan kluster.
    • Tentukan beberapa kebijakan kluster. Sebagai bagian dari proses onboarding, tetapkan setiap izin grup target untuk digunakan oleh tim operasi zona landasan data. Secara default, izin pembuatan kluster hanya diberikan kepada tim operasi. Tim atau grup yang berbeda diberi izin untuk menggunakan kebijakan kluster.
    • Gunakan kebijakan kluster yang dikombinasikan dengan kumpulan Azure Databricks untuk mengurangi waktu mulai dan penskalaan otomatis kluster dengan mempertahankan set instans yang diam dan siap digunakan. Untuk informasi selengkapnya, lihat Kumpulan.
  • Ambil semua rahasia operasional Azure Databricks, seperti info masuk dan string koneksi SPN, dari instans Azure Key Vault.
  • Konfigurasikan aplikasi perusahaan terpisah per ruang kerja untuk digunakan dengan SCIM (sistem untuk manajemen identitas lintas domain). Tautkan ke ruang kerja Azure Databricks untuk mengontrol akses dan izin bagi setiap ruang kerja. Untuk informasi selengkapnya, lihat Memprovisikan pengguna dan grup menggunakan SCIM dan mengonfigurasi provisi SCIM untuk ID Microsoft Entra.

Peringatan

Kegagalan mengonfigurasi ruang kerja Azure Databricks untuk menggunakan antarmuka SCIM Azure Databricks memengaruhi cara Anda menyediakan kontrol keamanan. Proses beralih dari otomatis ke manual dan memutuskan semua alur CI/CD penyebaran.

Opsi kontrol akses berikut diatur untuk semua ruang kerja Databricks:

  • Kontrol visibilitas ruang kerja: diaktifkan (default: dinonaktifkan)
  • Kontrol visibilitas kluster: diaktifkan (default: dinonaktifkan)
  • Kontrol visibilitas pekerjaan: diaktifkan (default: dinonaktifkan)

Anda mungkin ingin mengaktifkan opsi berikut untuk ruang kerja analitik Azure Databricks:

  • Mengekspor buku catatan: dinonaktifkan (default: diaktifkan)
  • Fitur clipboard tabel buku catatan: dinonaktifkan (default: diaktifkan)
  • Kontrol akses tabel: diaktifkan (default: dinonaktifkan)
  • Akses Bersyarat Microsoft Entra ID

Menyebarkan Azure Databricks

Jika Anda menyebarkan ruang kerja Azure Databricks sebagai bagian dari penyebaran zona pendaratan data baru. Gambar berikut menunjukkan alur kerja sampel penyebaran lingkungan Azure Databricks di analitik skala cloud.

Diagram of an Azure Databricks deployment into a data landing zone.

  1. Proses provisi pertama memastikan instans metastore Apache Hive ada di zona landasan data. Jika gagal menemukan metastore Apache Hive, proses berhenti dan menampilkan kesalahan.
  2. Ruang kerja akan dibuat setelah berhasil menemukan metastore Apache Hive.
  3. Proses ini memeriksa ruang kerja Analitik Log di zona landasan data. Jika gagal menemukan ruang kerja Analitik Log, proses tersebut akan berhenti dan menampilkan kesalahan.
  4. Untuk setiap ruang kerja, ia membuat aplikasi Microsoft Entra dan mengonfigurasi SCIM.

Untuk ruang kerja penyerapan Azure Databricks:

  1. Proses ini mengonfigurasi ruang kerja dengan akses perwakilan layanan.
  2. Kebijakan rekayasa data yang ditentukan oleh tim operasi platform data disebarkan.
  3. Jika diminta oleh tim operasi zona landasan data, kumpulan atau kluster Databricks dapat diintegrasikan ke dalam proses penyebaran.
  4. Tindakan ini memungkinkan opsi ruang kerja khusus untuk ruang kerja teknik Azure Databricks.

Untuk ruang kerja analitik Azure Databricks:

  1. Proses ini menyebarkan kebijakan analitik data yang ditentukan oleh tim operasi platform data.
  2. Jika diminta oleh tim operasi zona landasan data, kumpulan atau kluster Databricks dapat diintegrasikan ke dalam proses penyebaran.
  3. Tindakan ini memungkinkan opsi ruang kerja khusus untuk ruang kerja teknik Azure Databricks.

Metastore Apache Hive Eksternal

Dalam penyebaran ruang kerja Azure Databricks:

  • Skrip init global baru mengonfigurasi pengaturan metastore Apache Hive untuk semua kluster. Skrip ini dikelola oleh API skrip init global baru.

API skrip init global baru sedang dalam pratinjau publik. Fitur pratinjau publik di Azure Databricks siap untuk lingkungan produksi dan didukung oleh tim dukungan. Untuk informasi selengkapnya, lihat rilis pratinjau Azure Databricks.

  • Solusi ini menggunakan Azure Database for MySQL untuk menyimpan instans metastore Apache Hive. Database ini dipilih karena efektivitas biaya dan kompatibilitasnya yang tinggi dengan Apache Hive.

Langkah berikutnya

Analitik skala cloud mempertimbangkan panduan berikut untuk mengintegrasikan Azure Databricks: