Aracılığıyla paylaş


Veri agnostik alma altyapısı

Bu makalede, Azure Data Factory'de PowerApps, Azure Logic Apps ve meta veri temelli kopyalama görevlerinin birleşimini kullanarak veri belirsiz alma altyapısı senaryolarını nasıl uygulayabileceğiniz açıklanmaktadır.

Veri agnostik veri alımı altyapısı senaryoları genellikle teknik olmayan (veri mühendisi olmayan) kullanıcıların veri varlıklarını daha fazla işlem için Data Lake'te yayımlamasına izin vermek üzerine odaklanmıştır. Bu senaryoyı uygulamak için şunları etkinleştiren ekleme özelliklerine sahip olmanız gerekir:

  • Veri varlığı kaydı
  • İş akışı sağlama ve meta veri yakalama
  • Alım zamanlaması

Bu özelliklerin nasıl etkileşime geçtiğini görebilirsiniz:

Veri kaydı özellikleri ve etkileşimleri diyagramı

Şekil 1: Veri kaydı özellikleri etkileşimleri.

Aşağıdaki diyagramda, Azure hizmetlerinin bir bileşimi kullanılarak bu işlemin nasıl uygulandığı gösterilmektedir:

Veri bağımsız altyapı alımı işleminin diyagramı

Şekil 2: Otomatik alma işlemi.

Veri varlığı kaydı

Otomatik alımı yönlendirmek için kullanılan meta verileri sağlamak için veri varlığı kaydına ihtiyacınız vardır. Yakaladığınız bilgiler aşağıdakileri içerir:

  • Teknik bilgiler: Veri varlığı adı, kaynak sistemi, türü, biçimi ve sıklığı.
  • İdare bilgileri: Sahip, görevliler, görünürlük (bulma amacıyla) ve duyarlılık.

PowerApps, her veri varlığını açıklayan meta verileri yakalamak için kullanılır. Özel bir Dataverse tablosunda kalıcı hale gelen bilgileri girmek için model temelli bir uygulama kullanın. Dataverse'de meta veriler oluşturulduğunda veya güncelleştirildiğinde, daha fazla işlem adımlarını çağıran bir Otomatik Bulut akışı tetikler.

Veri varlığı kaydının diyagramı.

Şekil 3: Veri varlığı kaydı.

Sağlama iş akışı / meta veri yakalama

Sağlama iş akışı aşamasında, kayıt aşamasında toplanan verileri doğrular ve meta veri deposunda kalıcı hale alırsınız. Aşağıdakiler dahil olmak üzere hem teknik hem de iş doğrulama adımları gerçekleştirilir:

  • Giriş veri akışı doğrulaması
  • Onay iş akışı tetikleniyor
  • Meta verilerin meta veri deposuna kalıcılığını tetikleyen mantık işleme
  • Etkinlik denetimi

Kayıt iş akışı diyagramı

Şekil 4: Kayıt iş akışı.

Alma istekleri onaylandıktan sonra iş akışı, kaynakları Azure Purview'a eklemek için Azure Purview REST API'sini kullanır.

Veri ürünlerini eklemeye yönelik ayrıntılı iş akışı

Yeni veri kümelerinin nasıl alınıyor (otomatik) gösteren diyagram

Şekil 5: Yeni veri kümelerinin nasıl alınıyor (otomatik).

Şekil 5'de yeni veri kaynaklarının alımını otomatikleştirmek için ayrıntılı kayıt işlemi gösterilmektedir:

  • Üretim ve veri fabrikası ortamları dahil olmak üzere kaynak ayrıntıları kaydedilir.
  • Veri şekli, biçimi ve kalite kısıtlamaları yakalanır.
  • Veri uygulama ekipleri verilerin hassas olup olmadığını belirtmelidir (Kişisel veriler) Bu sınıflandırma, data lake klasörlerinin ham, zenginleştirilmiş ve seçilmiş verileri almak için oluşturulduğu işlemi yönetir. Kaynak, ham ve zenginleştirilmiş verileri, veri ürünü ise seçilmiş verileri adlandıran verilerdir.
  • Veri kümesini almak ve veri kümesine erişim vermek için hizmet sorumlusu ve güvenlik grupları oluşturulur.
  • Veri giriş bölgesi Data Factory meta deposunda bir alma işi oluşturulur.
  • API, veri tanımını Azure Purview'a ekler.
  • Veri kaynağının doğrulanması ve operasyon ekibinin onayına bağlı olarak, ayrıntılar bir Data Factory meta veri deposunda yayımlanır.

Alım zamanlaması

Azure Data Factory'de meta veri temelli kopyalama görevleri, düzenleme işlem hatlarının Azure SQL Veritabanı'de depolanan bir Denetim Tablosu içindeki satırlar tarafından yönlendirilmesine olanak tanıyan işlevler sağlar. Meta veri temelli işlem hatlarını önceden oluşturmak için Veri Kopyalama Aracı'nı kullanabilirsiniz.

İşlem hattı oluşturulduktan sonra, sağlama iş akışınız veri varlığı kayıt meta verileri tarafından tanımlanan kaynaklardan alımı desteklemek için Denetim Tablosu'na girdiler ekler. Azure Data Factory işlem hatları ve Denetim Tablosu meta veri deponuzu içeren Azure SQL Veritabanı her ikisi de yeni veri kaynakları oluşturmak ve bunları veri giriş bölgelerine almak için her veri giriş bölgesinde bulunabilir.

Veri varlığı alımı zamanlama diyagramı

Şekil 6: Veri varlığı alımının zamanlanması.

Yeni veri kaynaklarını almak için ayrıntılı iş akışı

Aşağıdaki diyagramda, Data Factory SQL Veritabanı meta veri deposunda kayıtlı veri kaynaklarının nasıl çekilip alınıp alınma şekli gösterilmektedir:

Yeni veri kaynaklarının nasıl alınıyor diyagramı

Data Factory alma ana işlem hattınız Data Factory SQL Veritabanı meta veri deposundaki yapılandırmaları okur ve ardından doğru parametrelerle yinelemeli olarak çalışır. Veriler kaynaktan Azure Data Lake'teki ham katmana çok az değişiklikle ve hiç değişiklik olmadan gelir. Veri şekli, Data Factory meta veri deponuza göre doğrulanır. Dosya biçimleri Apache Parquet veya Avro biçimlerine dönüştürülür, ardından zenginleştirilmiş katmana kopyalanır.

Alınan veriler bir Azure Databricks veri bilimi ve mühendislik çalışma alanına bağlanır ve apache Hive meta veri deposu veri giriş bölgesi içinde bir veri tanımı oluşturulur.

Verileri kullanıma açmak için Azure Synapse sunucusuz SQL havuzu kullanmanız gerekiyorsa, özel çözümünüz göldeki veriler üzerinde görünümler oluşturmalıdır.

Satır düzeyinde veya sütun düzeyinde şifrelemeye ihtiyacınız varsa, özel çözümünüz verileri veri gölünüze almalı, ardından verileri doğrudan SQL havuzlarındaki iç tablolara almalı ve SQL havuzları işlemi üzerinde uygun güvenliği ayarlamalıdır.

Yakalanan meta veriler

Otomatik veri alımını kullanırken, ilişkili meta verileri sorgulayabilir ve aşağıdakiler için panolar oluşturabilirsiniz:

  • İşlevleriyle ilgili veri ürünleri için işleri ve en son veri yükleme zaman damgalarını izleyin.
  • Kullanılabilir veri ürünlerini izleyin.
  • Veri hacimlerini büyütme.
  • İş hataları hakkında gerçek zamanlı güncelleştirmeler edinin.

İşlem meta verileri şu özellikleri izlemek için kullanılabilir:

  • İşler, iş adımları ve bağımlılıkları.
  • İş performansı ve performans geçmişi.
  • Veri hacminin büyümesi.
  • İş hataları.
  • Kaynak meta veri değişiklikleri.
  • Veri ürünlerine bağlı iş işlevleri.

Verileri bulmak için Azure Purview REST API'sini kullanma

Azure Purview REST API'leri, ilk alım sırasında verileri kaydetmek için kullanılmalıdır. VERI kataloğunuz alındıktan kısa süre sonra veri göndermek için API'leri kullanabilirsiniz.

Daha fazla bilgi için bkz . Azure Purview REST API'lerini kullanma.

Veri kaynaklarını kaydetme

Yeni veri kaynaklarını kaydetmek için aşağıdaki API çağrısını kullanın:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Veri kaynağı için URI parametreleri:

Veri Akışı Adı Zorunlu Türü Açıklama
accountName Doğru String Azure Purview hesabının adı
dataSourceName Doğru String Veri kaynağının adı

Kayıt için Azure Purview REST API'sini kullanma

Aşağıdaki örneklerde veri kaynaklarını yüklerle kaydetmek için Azure Purview REST API'sinin nasıl kullanılacağı gösterilmektedir:

Azure Data Lake Storage 2. Nesil veri kaynağını kaydetme:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

SQL Veritabanı veri kaynağını kaydetme:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Not

<collection-name>, Azure Purview hesabında mevcut olan geçerli bir koleksiyondur.

Tarama oluşturma

Tarama ayarlamadan ve çalıştırmadan önce Azure Purview'da kaynakların kimliğini doğrulamak için kimlik bilgileri oluşturmayı öğrenin.

Veri kaynaklarını taramak için aşağıdaki API çağrısını kullanın:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Tarama için URI parametreleri:

Veri Akışı Adı Zorunlu Türü Açıklama
accountName Doğru String Azure Purview hesabının adı
dataSourceName Doğru String Veri kaynağının adı
newScanName Doğru String Yeni taramanın adı

Tarama için Azure Purview REST API'sini kullanma

Aşağıdaki örneklerde, veri kaynaklarını yüklerle taramak için Azure Purview REST API'sini nasıl kullanabileceğiniz gösterilmektedir:

Azure Data Lake Storage 2. Nesil veri kaynağını tarama:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

SQL Veritabanı veri kaynağını tarama:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Veri kaynaklarını taramak için aşağıdaki API çağrısını kullanın:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Sonraki adımlar