Bagikan melalui


Membuat arsitektur analitik modern dengan menggunakan Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Ide solusi

Artikel ini menjelaskan ide solusi. Arsitek cloud Anda dapat menggunakan panduan ini untuk membantu memvisualisasikan komponen utama untuk implementasi umum arsitektur ini. Gunakan artikel ini sebagai titik awal untuk merancang solusi yang dirancang dengan baik yang selaras dengan persyaratan spesifik beban kerja Anda.

Solusi ini menguraikan prinsip dan komponen utama arsitektur data modern. Azure Databricks membentuk inti solusi. Platform ini bekerja dengan mulus dengan layanan lain, seperti Azure Data Lake Storage, Microsoft Fabric, dan Power BI.

ApacheĀ® dan Apache Sparkā„¢ adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau negara lain. Tidak ada dukungan oleh The Apache Software Foundation yang tersirat oleh penggunaan tanda ini.

Sistem

diagram Arsitektur yang memperlihatkan bagaimana arsitektur data modern mengumpulkan, memproses, menganalisis, dan memvisualisasikan data.

Unduh file Visio arsitektur ini.

Aliran data

  1. Azure Databricks menyerap data streaming mentah dari Azure Event Hubs dengan menggunakan Tabel Langsung Delta.

  2. Fabric Data Factory memuat data batch mentah ke Dalam Data Lake Storage.

  3. Untuk penyimpanan data:

    • Data Lake Storage menampung semua jenis data, termasuk data terstruktur, tidak terstruktur, dan terstruktur sebagian. Data Lake Storage juga menyimpan data batch dan streaming.

    • Delta Lake membentuk lapisan yang dikuratori dari data lake. Delta Lake menyimpan data yang disempurnakan dalam format open-source.

    • Azure Databricks bekerja dengan baik dengan arsitektur medali yang mengatur data menjadi lapisan:

      • Lapisan perunggu: Menyimpan data mentah.
      • Lapisan perak: Berisi data yang dibersihkan dan difilter.
      • Lapisan emas: Menyimpan data agregat yang berguna untuk analitik bisnis.
  4. Platform analitis menyerap data dari batch yang berbeda dan sumber streaming. Ilmuwan data menggunakan data ini untuk tugas-tugas seperti:

    • Persiapan data.
    • Eksplorasi data.
    • Persiapan model.
    • Pelatihan model.

    MLflow mengelola pelacakan parameter, metrik, dan model dalam eksekusi kode ilmu data. Kemungkinan pengodean fleksibel:

    • Kode dapat berupa SQL, Python, R, dan Scala.
    • Kode dapat menggunakan pustaka dan kerangka kerja sumber terbuka populer seperti Koala, Panda, dan scikit-learn, yang telah diinstal sebelumnya dan dioptimalkan.
    • Pengguna dapat mengoptimalkan performa dan biaya dengan menggunakan opsi komputasi simpul tunggal dan beberapa simpul.
  5. Model pembelajaran mesin tersedia dalam format berikut:

    • Azure Databricks menyimpan informasi tentang model di Registri Model MLflow. Registri membuat model tersedia melalui API batch, streaming, dan REST.
    • Solusi ini juga dapat menerapkan model untuk layanan web Azure Machine Learning atau Azure Kubernetes Service (AKS).
  6. Layanan yang bekerja dengan data tersambung ke satu sumber data yang mendasar untuk membantu memastikan konsistensi. Misalnya, Anda dapat menjalankan kueri SQL di data lake dengan menggunakan gudang Azure Databricks SQL. Layanan ini:

    • Menyediakan editor kueri dan katalog, riwayat kueri, dasbor dasar, dan peringatan.
    • Menggunakan keamanan terintegrasi yang menyertakan izin tingkat baris dan izin tingkat kolom.
    • Menggunakan Mesin Delta bertenaga Photon untuk meningkatkan performa.
  7. Anda dapat mencerminkan himpunan data emas dari Azure Databricks Unity Catalog ke Fabric. Gunakan pencerminan Azure Databricks di Fabric untuk berintegrasi dengan mudah tanpa perlu memindahkan atau mereplikasi data.

  8. Power BI menghasilkan laporan analitis dan historis dan dasbor dari platform data terpadu. Layanan ini menggunakan fitur berikut saat bekerja dengan Azure Databricks:

    • Konektor Azure Databricks bawaan untuk memvisualisasikan data yang mendasarinya.
    • Konektivitas Database Java yang Dioptimalkan dan driver Konektivitas Database Terbuka.
    • Anda dapat menggunakan Direct Lake dengan pencerminan Azure Databricks di Fabric untuk memuat model semantik Power BI Anda untuk kueri berkinerja lebih tinggi.
  9. Solusi ini menggunakan layanan Unity Catalog dan Azure untuk kolaborasi, performa, keandalan, tata kelola, dan keamanan:

    • Azure Databricks Unity Catalog menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Azure Databricks.

    • Microsoft Purview menyediakan layanan penemuan data, klasifikasi data sensitif, dan wawasan tata kelola di seluruh data estate.

    • Azure DevOps menawarkan integrasi berkelanjutan dan penyebaran berkelanjutan (CI/CD) dan fitur kontrol versi terintegrasi lainnya.

    • Azure Key Vault membantu Anda mengelola rahasia, kunci, dan sertifikat dengan aman.

    • Microsoft Entra ID dan provisi System for Cross-domain Identity Management (SCIM) menyediakan akses menyeluruh untuk pengguna dan grup Azure Databricks. Azure Databricks mendukung provisi pengguna otomatis dengan ID Microsoft Entra untuk:

      • Buat pengguna dan grup baru.
      • Tetapkan setiap pengguna tingkat akses.
      • Hapus pengguna dan tolak akses mereka.
    • Azure Monitor mengumpulkan dan menganalisis telemetri sumber daya Azure. Dengan secara proaktif mengidentifikasi masalah, layanan ini memaksimalkan performa dan keandalan.

    • Microsoft Cost Management menyediakan layanan tata kelola keuangan untuk beban kerja Azure.

Komponen

Solusi ini menggunakan komponen-komponen berikut.

Komponen inti

  • Azure Databricks adalah platform analitik data yang menggunakan kluster Spark untuk memproses aliran data besar. Ini membersihkan dan mengubah data yang tidak terstruktur dan menggabungkannya dengan data terstruktur. Ini juga dapat melatih dan menyebarkan model pembelajaran mesin. Dalam arsitektur ini, Azure Databricks berfungsi sebagai alat pusat untuk penyerapan, pemrosesan, dan penyajian data. Ini menyediakan lingkungan terpadu untuk mengelola seluruh siklus hidup data.

  • gudang Azure Databricks SQL adalah sumber daya komputasi yang dapat Anda gunakan untuk mengkueri dan menjelajahi data di Azure Databricks. Dalam arsitektur ini, Anda bisa menggunakan titik akhir SQL untuk menyambungkan langsung ke data Anda dari Power BI.

  • azure Databricks Delta Live Tables adalah kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Dalam arsitektur ini, Tabel Langsung Delta membantu Anda menentukan transformasi untuk dilakukan pada data Anda. Ini juga membantu Anda mengelola orkestrasi tugas, manajemen kluster, pemantauan, kualitas data, dan penanganan kesalahan dalam Azure Databricks.

  • Microsoft Fabric adalah analitik end-to-end dan platform data untuk organisasi yang memerlukan solusi terpadu. Platform ini menyediakan layanan seperti Rekayasa Data, Data Factory, Ilmu Data, kecerdasan Real-Time, Gudang Data, dan Database. Arsitektur ini mencerminkan tabel Unity Catalog ke fabric dan menggunakan Direct Lake di Power BI untuk performa yang lebih baik.

  • Data Factory di Microsoft Fabric adalah platform integrasi data modern yang dapat Anda gunakan untuk menyerap, menyiapkan, dan mengubah data dari sekumpulan sumber data yang kaya di Fabric. Arsitektur ini menggunakan konektor bawaan ke beberapa sumber data untuk penyerapan cepat ke Data Lake Storage atau OneLake. Azure Databricks kemudian mengambil dan mengubah data batch lebih lanjut.

  • Event Hubs adalah platform streaming big data yang dikelola sepenuhnya. Sebagai platform sebagai layanan, platform ini menyediakan kemampuan penyerapan peristiwa. Arsitektur ini menggunakan Azure Event Hubs untuk data streaming. Azure Databricks dapat terhubung ke data ini dan memprosesnya dengan menggunakan Spark Streaming atau Tabel Langsung Delta.

  • Data Lake Storage adalah data lake yang dapat diskalakan dan aman untuk analitik berkinerja tinggi. Ini menangani beberapa petabyte data dan mendukung ratusan gigabit throughput. Data Lake Storage dapat menyimpan data terstruktur, terstruktur sebagian, dan tidak terstruktur. Arsitektur ini menggunakan Data Lake Storage untuk menyimpan data batch dan streaming.

  • Pembelajaran Mesin adalah lingkungan berbasis cloud yang membantu Anda membangun, menyebarkan, dan mengelola solusi analisis prediktif. Dengan menggunakan model ini, Anda dapat memperkirakan perilaku, hasil, dan tren. Dalam arsitektur ini, Azure Machine Learning menggunakan data yang ditransformasikan Azure Databricks untuk melatih dan menyimpulkan model.

  • AKS adalah layanan Kubernetes yang sangat tersedia, aman, dan dikelola sepenuhnya. AKS memudahkan Anda menyebarkan dan mengelola aplikasi kontainer. Dalam arsitektur ini, AKS menghosting model pembelajaran mesin di lingkungan kontainer untuk inferensi yang dapat diskalakan.

  • Delta Lake adalah lapisan penyimpanan yang menggunakan format file terbuka. Lapisan ini berjalan di atas solusi penyimpanan cloud seperti Data Lake Storage. Delta Lake mendukung penerapan versi data, pemutaran kembali, dan transaksi untuk memperbarui, menghapus, dan menggabungkan data. Dalam arsitektur ini, Delta Lake berfungsi sebagai format file utama untuk menulis dan membaca data dari Data Lake Storage.

  • MLflow adalah platform sumber terbuka untuk mengelola siklus hidup pembelajaran mesin. Komponennya memantau model pembelajaran mesin selama pelatihan dan operasi. Dalam arsitektur ini, mirip dengan Pembelajaran Mesin, Anda dapat menggunakan MLflow di Azure Databricks untuk mengelola siklus hidup pembelajaran mesin Anda. Melatih dan menyimpulkan model dengan menggunakan data Unity Catalog yang Anda ubah dalam Azure Databricks.

Komponen pelaporan dan pengelolaan

  • Azure Databricks Unity Catalog menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Azure Databricks. Dalam arsitektur ini, Unity Catalog berfungsi sebagai alat utama dalam Azure Databricks untuk mengelola dan mengamankan akses data.

  • Power BI adalah kumpulan layanan dan aplikasi perangkat lunak. Layanan ini membuat dan berbagi laporan yang menghubungkan dan memvisualisasikan sumber data yang tidak terkait. Bersama dengan Azure Databricks, Power BI dapat memberikan penentuan akar penyebab dan analisis data mentah. Arsitektur ini menggunakan Power BI untuk membuat dasbor dan laporan yang memberikan wawasan tentang data yang diproses Azure Databricks dan Fabric.

  • Microsoft Purview mengelola data lokal, multicloud, dan perangkat lunak sebagai layanan (SaaS). Layanan tata kelola ini mempertahankan peta lanskap data. Fitur-fiturnya termasuk penemuan data otomatis, klasifikasi data sensitif, dan silsilah data. Arsitektur ini menggunakan Microsoft Purview untuk memindai dan melacak data yang diserap di Unity Catalog, Fabric, Power BI, dan Data Lake Storage.

  • Azure DevOps adalah platform orkestrasi DevOps. SaaS ini menyediakan alat dan lingkungan untuk membangun, menyebarkan, dan berkolaborasi pada aplikasi. Arsitektur ini menggunakan Azure DevOps untuk mengotomatiskan penyebaran infrastruktur Azure. Anda juga dapat menggunakan GitHub untuk otomatisasi dan kontrol versi kode Azure Databricks untuk kolaborasi, pelacakan perubahan, dan integrasi yang lebih baik dengan alur CI/CD.

  • Key Vault menyimpan dan mengontrol akses ke rahasia, seperti token, kata sandi, dan kunci API. Key Vault juga membuat dan mengontrol kunci enkripsi dan mengelola sertifikat keamanan. Arsitektur ini menggunakan Key Vault untuk menyimpan kunci tanda tangan akses bersama dari Data Lake Storage. Kunci ini kemudian digunakan di Azure Databricks dan layanan lain untuk autentikasi.

  • ID Microsoft Entra menawarkan layanan manajemen identitas dan akses berbasis cloud. Fitur ini menyediakan cara bagi pengguna untuk masuk dan mengakses sumber daya. Arsitektur ini menggunakan ID Microsoft Entra untuk mengautentikasi dan mengotorisasi pengguna dan layanan di Azure.

  • SCIM memungkinkan Anda menyiapkan provisi ke akun Azure Databricks dengan menggunakan ID Microsoft Entra. Arsitektur ini menggunakan SCIM untuk mengelola pengguna yang mengakses ruang kerja Azure Databricks.

  • Azure Monitor mengumpulkan dan menganalisis data di lingkungan dan sumber daya Azure. Data ini mencakup telemetri aplikasi, seperti metrik performa dan log aktivitas. Arsitektur ini menggunakan Azure Monitor untuk memantau kesehatan sumber daya komputasi di Azure Databricks dan Pembelajaran Mesin dan komponen lain yang mengirim log ke Azure Monitor.

  • Cost Management membantu Anda mengelola pengeluaran cloud. Dengan menggunakan anggaran dan rekomendasi, layanan ini mengatur pengeluaran dan menunjukkan kepada Anda cara mengurangi biaya. Arsitektur ini menggunakan Cost Management untuk membantu memantau dan mengontrol biaya seluruh solusi.

Detail skenario

Arsitektur data modern:

  • Menyatukan beban kerja data, analitik, dan AI.
  • Menjalankan secara efisien dan andal pada skala apa pun.
  • Memberikan wawasan melalui dasbor analitik, laporan operasional, atau analitik tingkat lanjut.

Solusi ini menguraikan arsitektur data modern yang mencapai tujuan ini. Azure Databricks membentuk inti solusi. Platform ini bekerja dengan mulus dengan layanan lain. Bersama-sama, layanan ini memberikan solusi yaitu:

  • Sederhana: Analisis terpadu, ilmu data, dan pembelajaran mesin menyederhanakan arsitektur data.
  • Terbuka: Solusi ini mendukung kode sumber terbuka, standar terbuka, dan kerangka kerja terbuka. Layanan ini juga bekerja dengan lingkungan pengembangan terintegrasi populer (IDE), pustaka, dan bahasa pemrograman. Melalui konektor native dan API, solusi ini bekerja dengan berbagai layanan lain juga.
  • Kolaboratif: Insinyur data, ilmuwan data, dan analis bekerja sama dengan solusi ini. Mereka dapat menggunakan buku catatan kolaboratif, IDE, dasbor, dan alat lain untuk mengakses dan menganalisis data dasar umum.

Kemungkinan kasus penggunaan

Sistem yang dibangun Swiss Re Group untuk divisi Property & Casualty Reinsurance menginspirasi solusi ini. Selain industri asuransi, area apa pun yang bekerja dengan big data atau pembelajaran mesin juga dapat memperoleh manfaat dari solusi ini. Contohnya meliputi:

  • Sektor energi.
  • Ritel dan e-niaga.
  • Perbankan dan keuangan.
  • Kedokteran dan kesehatan.

Langkah berikutnya

Untuk mempelajari tentang solusi terkait, lihat panduan dan arsitektur berikut.