Aplikasi data (selaras dengan sumber)

Jika Anda memilih untuk tidak menerapkan mesin agnostik data untuk menyerap data sekali dari sumber operasional, atau jika koneksi kompleks tidak difasilitasi di mesin agnostik data, Anda harus membuat aplikasi data yang selaras dengan sumber. Ini harus mengikuti alur yang sama dengan mesin agnostik data saat menyerap data dari sumber data eksternal.

Gambaran Umum

Grup sumber daya aplikasi Anda bertanggung jawab atas penyerapan dan pengayaan data hanya dari sumber eksternal, seperti telemetri, keuangan, atau CRM. Lapisan ini dapat beroperasi secara real time, batch, dan micro-batch.

Bagian ini menjelaskan infrastruktur yang disebarkan untuk setiap grup sumber daya aplikasi data (selaras dengan sumber) di dalam zona pendaratan data Anda.

Tip

Untuk jala data, Anda dapat memilih untuk menyebarkan salah satu dari ini per sumber atau satu per domain. Prinsip standardisasi data, kualitas data, dan silsilah data masih harus diikuti. Tim ops platform data dapat mengembangkan cuplikan kode standar dan memanggil mereka untuk mencapai hal ini.

Grup sumber daya aplikasi data (selaras dengan sumber)

Untuk setiap grup sumber daya aplikasi data (selaras dengan sumber daya) di zona pendaratan data, Anda harus membuat:

  • Azure Key Vault
  • Azure Data Factory, untuk menjalankan alur rekayasa yang dikembangkan yang mengubah data dari mentah menjadi diperkaya
  • Perwakilan layanan yang digunakan oleh aplikasi data (selaras dengan sumber) untuk menyebarkan pekerjaan penyerapan ke Azure Databricks (hanya jika menggunakan Azure Databricks)

Anda juga dapat membuat instans layanan lain, seperti Azure Event Hubs, Azure IoT Hub, Azure Stream Analytics, dan Azure Machine Learning.

Catatan

Anda perlu menggunakan mesin spark seperti Azure Synapse Spark atau Azure Databricks untuk menegakkan standar delta lake.

Jika Anda memutuskan untuk menggunakan Azure Databricks, sebaiknya sebarkan Azure Data Factory daripada Azure Synapse ruang kerja Analytics untuk mengurangi area permukaan menjadi hanya fitur yang diperlukan.

Namun, jika Anda memerlukan area pengembangan yang mencakup semua dengan alur dan percikan, gunakan Azure Synapse Analytics. Terapkan kebijakan untuk hanya mengizinkan penggunaan spark dan alur sehingga Anda menghindari pembuatan silo di kumpulan SQL Azure Synapse.

Azure Key Vault

Gunakan fungsionalitas Azure Key Vault untuk menyimpan rahasia dalam Azure jika memungkinkan.

Setiap grup sumber daya atau domain data aplikasi data (selaras sumber) (jika jala) akan memiliki azure Key Vault. Ini memastikan bahwa kunci enkripsi, rahasia, dan turunan sertifikat memenuhi persyaratan lingkungan Anda. Hal ini memungkinkan pemisahan tugas administratif yang lebih baik dan juga mengurangi risiko pencampuran kunci, integrasi, dan rahasia klasifikasi yang berbeda.

Semua kunci yang berkaitan dengan aplikasi data Anda (selaras sumber) harus dimuat dalam Key Vault Azure Anda.

Penting

Brankas kunci aplikasi data (selaras sumber) harus mengikuti model hak istimewa paling sedikit dan harus menghindari batas skala transaksi dan berbagi rahasia di seluruh lingkungan.

Azure Data Factory

Sebarkan Azure Data Factory untuk memungkinkan alur yang ditulis oleh tim aplikasi data Anda untuk mengambil data dari mentah ke diperkaya menggunakan alur yang dikembangkan. Gunakan aliran data pemetaan untuk transformasi, dan pisahkan untuk menggunakan ruang kerja Azure Databricks (penyerapan) atau Azure Synapse Spark untuk transformasi yang kompleks.

Anda harus menyambungkan Azure Data Factory ke instans DevOps dari repositori aplikasi data Anda (selaras dengan sumber). Koneksi ini memungkinkan penyebaran CI/CD.

Event Hubs

Jika aplikasi data Anda (selaras dengan sumber) memiliki persyaratan untuk mengalirkan data, Anda dapat menyebarkan Azure Event Hubs hilir di grup sumber daya aplikasi data Anda (selaras dengan sumber).

Langkah berikutnya

Pola referensi aplikasi data