Mesin penyerapan agnostik data

Artikel ini menjelaskan bagaimana Anda dapat menerapkan skenario mesin penyerapan agnostik data menggunakan kombinasi PowerApps, Azure Logic Apps, dan tugas penyalinan berbasis metadata dalam Azure Data Factory.

Skenario mesin penyerapan agnostik data biasanya berfokus pada membiarkan pengguna non-teknis (non-insinyur data) menerbitkan aset data ke Data Lake untuk diproses lebih lanjut. Untuk menerapkan skenario ini, Anda harus memiliki kemampuan onboarding yang mengaktifkan:

  • Pendaftaran aset data
  • Provisi alur kerja dan pengambilan metadata
  • Penjadwalan penyerapan

Anda dapat melihat bagaimana kemampuan ini berinteraksi:

Diagram kemampuan dan interaksi pendaftaran data

Gambar 1: Interaksi kemampuan pendaftaran data.

Diagram berikut menunjukkan cara menerapkan proses ini menggunakan kombinasi layanan Azure:

Diagram proses penyerapan mesin agnostik data

Gambar 2: Proses penyerapan otomatis.

Pendaftaran aset data

Untuk menyediakan metadata yang digunakan untuk mendorong penyerapan otomatis, Anda memerlukan pendaftaran aset data. Informasi yang Anda ambil berisi:

  • Informasi teknis: nama aset data, sistem sumber, jenis, format, dan frekuensi.
  • Informasi tata kelola: pemilik, pelayan, visibilitas (untuk tujuan penemuan) dan sensitivitas.

PowerApps digunakan untuk mengambil metadata yang menjelaskan setiap aset data. Gunakan aplikasi berbasis model untuk memasukkan informasi yang dipertahankan ke tabel Dataverse kustom. Saat metadata dibuat atau diperbarui dalam Dataverse, metadata memicu alur Cloud Otomatis yang memanggil langkah-langkah pemrosesan lebih lanjut.

Diagram pendaftaran aset data.

Gambar 3: Pendaftaran aset data.

Provisi alur kerja/pengambilan metadata

Dalam tahap alur kerja provisi, Anda memvalidasi dan mempertahankan data yang dikumpulkan dalam tahap pendaftaran ke metastore. Langkah-langkah validasi teknis dan bisnis dilakukan, termasuk:

  • Validasi umpan data input
  • Pemicu alur kerja persetujuan
  • Pemrosesan logika untuk memicu persistensi metadata ke penyimpanan metadata
  • Audit aktivitas

Diagram alur kerja pendaftaran

Gambar 4: Alur kerja pendaftaran.

Setelah permintaan penyerapan disetujui, alur kerja menggunakan REST API Azure Purview untuk menyisipkan sumber ke Azure Purview.

Alur kerja terperinci untuk produk data onboarding

Diagram memperlihatkan bagaimana himpunan data baru diserap (otomatis)

Gambar 5: Bagaimana himpunan data baru diserap (otomatis).

Gambar 5 menunjukkan proses pendaftaran terperinci untuk mengotomatiskan penyerapan sumber data baru:

  • Detail sumber terdaftar, termasuk lingkungan pabrik produksi dan data.
  • Bentuk data, format, dan batasan kualitas diambil.
  • Tim aplikasi data harus menunjukkan apakah data sensitif (Data pribadi) Klasifikasi ini mendorong proses di mana folder data lake dibuat untuk menyerap data mentah, diperkaya, dan dikumpulkan. Nama sumber mentah dan data yang diperkaya dan nama produk data yang dikumpulkan data.
  • Perwakilan layanan dan kelompok keamanan dibuat untuk menyerap dan memberikan akses ke himpunan data.
  • Pekerjaan penyerapan dibuat di metastore Data Factory zona pendaratan data.
  • API menyisipkan definisi data ke Azure Purview.
  • Tunduk pada validasi sumber data dan persetujuan oleh tim operasi, rincian dipublikasikan ke metastore Data Factory.

Penjadwalan penyerapan

Dalam Azure Data Factory, tugas salinan berbasis metadata menyediakan fungsionalitas yang memungkinkan alur orkestrasi didorong oleh baris dalam Tabel Kontrol yang disimpan di Azure SQL Database. Anda dapat menggunakan Alat Salin Data untuk membuat alur berbasis metadata sebelumnya.

Setelah alur dibuat, alur kerja provisi Anda menambahkan entri ke Tabel Kontrol untuk mendukung penyerapan dari sumber yang diidentifikasi oleh metadata pendaftaran aset data. Alur Azure Data Factory dan Database Azure SQL yang berisi metastore Tabel Kontrol Anda dapat berada di dalam setiap zona pendaratan data untuk membuat sumber data baru dan menyerapnya ke zona pendaratan data.

Diagram penjadwalan penyerapan aset data

Gambar 6: Penjadwalan penyerapan aset data.

Alur kerja terperinci untuk menyerap sumber data baru

Diagram berikut menunjukkan cara menarik sumber data terdaftar di metastore SQL Database Data Factory dan bagaimana data pertama kali diserap:

Diagram tentang bagaimana sumber data baru diserap

Alur master penyerapan Data Factory Anda membaca konfigurasi dari metastore SQL Database Data Factory, lalu menjalankan secara berulang dengan parameter yang benar. Data melakukan perjalanan dari sumber ke lapisan mentah di Azure Data Lake dengan sedikit atau tanpa perubahan. Bentuk data divalidasi berdasarkan metastore Data Factory Anda. Format file dikonversi ke format Apache Parquet atau Avro, lalu disalin ke dalam lapisan yang diperkaya.

Data yang diserap terhubung ke ruang kerja ilmu data dan teknik Azure Databricks, dan definisi data dibuat dalam zona pendaratan data metastore Apache Hive.

Jika Anda perlu menggunakan kumpulan SQL tanpa server Azure Synapse untuk mengekspos data, solusi kustom Anda harus membuat tampilan atas data di lake.

Jika Anda memerlukan enkripsi tingkat baris atau tingkat kolom, solusi kustom Anda harus mendaratkan data di data lake Anda, lalu menyerap data langsung ke tabel internal di kumpulan SQL dan menyiapkan keamanan yang sesuai pada komputasi kumpulan SQL.

Metadata yang diambil

Saat menggunakan penyerapan data otomatis, Anda dapat mengkueri metadata terkait dan membuat dasbor untuk:

  • Lacak pekerjaan dan tanda waktu pemuatan data terbaru untuk produk data yang terkait dengan fungsinya.
  • Lacak produk data yang tersedia.
  • Meningkatkan volume data.
  • Mendapatkan pembaruan real-time tentang kegagalan pekerjaan.

Metadata operasional dapat digunakan untuk melacak:

  • Pekerjaan, langkah pekerjaan, dan ketergantungannya.
  • Performa pekerjaan dan sejarah performa.
  • Peningkatan volume data.
  • Kegagalan pekerjaan.
  • Metadata sumber berubah.
  • Fungsi bisnis yang bergantung pada produk data.

Menggunakan REST API Azure Purview untuk menemukan data

REST API Azure Purview harus digunakan untuk mendaftarkan data selama penyerapan awal. Anda dapat menggunakan API untuk mengirimkan data ke katalog data Anda segera setelah diserap.

Untuk informasi selengkapnya, lihat cara menggunakan REST API Azure Purview.

Mendaftarkan sumber data

Gunakan panggilan API berikut untuk mendaftarkan sumber data baru:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Parameter URI untuk sumber data:

Nama Diperlukan Jenis Deskripsi
accountName True String Nama akun Azure Purview
dataSourceName True String Nama sumber data

Menggunakan REST API Azure Purview untuk pendaftaran

Contoh berikut menunjukkan cara menggunakan REST API Azure Purview untuk mendaftarkan sumber data dengan payload:

Mendaftarkan sumber data Azure Data Lake Storage Gen2:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Mendaftarkan sumber data SQL Database:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Catatan

<collection-name> adalah koleksi saat ini yang ada di akun Azure Purview.

Membuat pemindaian

Pelajari cara membuat kredensial untuk mengautentikasi sumber di Azure Purview sebelum menyiapkan dan menjalankan pemindaian.

Gunakan panggilan API berikut untuk memindai sumber data:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Parameter URI untuk pemindaian:

Nama Diperlukan Jenis Deskripsi
accountName True String Nama akun Azure Purview
dataSourceName True String Nama sumber data
newScanName True String Nama pemindaian baru

Menggunakan REST API Azure Purview untuk pemindaian

Contoh berikut menunjukkan bagaimana Anda dapat menggunakan REST API Azure Purview untuk memindai sumber data dengan payload:

Mendaftarkan sumber data Azure Data Lake Storage Gen2:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Memindai sumber data SQL Database:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Gunakan panggilan API berikut untuk memindai sumber data:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Langkah berikutnya