Niezależny aparat pozyskiwania danych

Artykuł
05/29/2024

W tym artykule wyjaśniono, jak zaimplementować niezależne od danych scenariusze aparatu pozyskiwania danych przy użyciu kombinacji usług PowerApps, Azure Logic Apps i opartych na metadanych zadaniach kopiowania w usłudze Azure Data Factory.

Niezależne od danych scenariusze aparatu pozyskiwania danych zwykle koncentrują się na umożliwieniu użytkownikom nietechnistycznym (niezwiązanym z danymi) publikowania zasobów danych w usłudze Data Lake w celu dalszego przetwarzania. Aby zaimplementować ten scenariusz, musisz mieć możliwości dołączania, które umożliwiają:

Rejestracja zasobu danych
Aprowizowanie przepływu pracy i przechwytywanie metadanych
Planowanie pozyskiwania

Zobaczysz, jak te możliwości współdziałają:

Diagram możliwości rejestracji danych i interakcji

Rysunek 1. Interakcje możliwości rejestracji danych.

Na poniższym diagramie pokazano, jak zaimplementować ten proces przy użyciu kombinacji usług platformy Azure:

Diagram niezależnego od danych procesu pozyskiwania aparatu danych

Rysunek 2. Zautomatyzowany proces pozyskiwania.

Rejestracja zasobu danych

Aby zapewnić metadane używane do automatycznego pozyskiwania danych, potrzebujesz rejestracji zasobów danych. Przechwycone informacje zawierają:

Informacje techniczne: nazwa zasobu danych, system źródłowy, typ, format i częstotliwość.
Informacje o zarządzaniu: właściciel, stewardzy, widoczność (do celów odnajdywania) i wrażliwość.

Usługa PowerApps służy do przechwytywania metadanych opisujących każdy zasób danych. Użyj aplikacji opartej na modelu, aby wprowadzić informacje utrwalone w niestandardowej tabeli usługi Dataverse. Po utworzeniu lub zaktualizowaniu metadanych w usłudze Dataverse wyzwala on przepływ zautomatyzowanej chmury, który wywołuje dalsze kroki przetwarzania.

Diagram przedstawiający rejestrację zasobu danych.

Rysunek 3. Rejestracja zasobów danych.

Inicjowanie obsługi administracyjnej przepływu pracy/przechwytywania metadanych

Na etapie przepływu pracy aprowizacji dane zebrane na etapie rejestracji są weryfikowane i utrwalane w magazynie metadanych. Są wykonywane zarówno kroki weryfikacji technicznej, jak i biznesowej, w tym:

Walidacja wejściowego źródła danych
Wyzwalanie przepływu pracy zatwierdzania
Przetwarzanie logiki w celu wyzwolenia trwałości metadanych w magazynie metadanych
Inspekcja działań

Diagram przepływu pracy rejestracji

Rysunek 4. Przepływ pracy rejestracji.

Po zatwierdzeniu żądań pozyskiwania przepływ pracy używa interfejsu API REST usługi Azure Purview do wstawiania źródeł do usługi Azure Purview.

Szczegółowy przepływ pracy dotyczący dołączania produktów danych

Diagram przedstawiający sposób pozyskiwania nowych zestawów danych (zautomatyzowane)

Rysunek 5. Jak nowe zestawy danych są pozyskiwane (zautomatyzowane).

Rysunek 5 przedstawia szczegółowy proces rejestracji automatyzowania pozyskiwania nowych źródeł danych:

Szczegóły źródła są rejestrowane, w tym środowiska produkcyjne i środowiska fabryki danych.
Przechwytywane są ograniczenia dotyczące kształtu, formatu i jakości danych.
Zespoły ds. aplikacji danych powinny wskazać, czy dane są poufne (dane osobowe) Ta klasyfikacja napędza proces tworzenia folderów typu data lake w celu pozyskiwania nieprzetworzonych, wzbogaconych i wyselekcjonowanych danych. Nazwy źródłowe są nieprzetworzone i wzbogacone dane oraz nazwy produktów wyselekcjonowanych.
Jednostka usługi i grupy zabezpieczeń są tworzone do pozyskiwania i udzielania dostępu do zestawu danych.
Zadanie pozyskiwania jest tworzone w strefie docelowej danych Magazynu metadanych usługi Data Factory.
Interfejs API wstawia definicję danych do usługi Azure Purview.
W przypadku weryfikacji źródła danych i zatwierdzenia przez zespół ds. operacji szczegóły są publikowane w magazynie metadanych usługi Data Factory.

Planowanie pozyskiwania

W usłudze Azure Data Factory zadania kopiowania oparte na metadanych zapewniają funkcjonalność umożliwiającą wykonywanie potoków aranżacji przez wiersze w tabeli sterowania przechowywanej w usłudze Azure SQL Database. Narzędzie do kopiowania danych umożliwia wstępne tworzenie potoków opartych na metadanych.

Po utworzeniu potoku przepływ pracy aprowizacji dodaje wpisy do tabeli sterowania w celu obsługi pozyskiwania ze źródeł zidentyfikowanych przez metadane rejestracji zasobów danych. Potoki usługi Azure Data Factory i usługa Azure SQL Database zawierające magazyn metadanych Tabeli sterowania mogą istnieć w każdej strefie docelowej danych w celu utworzenia nowych źródeł danych i pozyskiwania ich do stref docelowych danych.

Diagram przedstawiający planowanie pozyskiwania zasobów danych

Rysunek 6. Planowanie pozyskiwania zasobów danych.

Szczegółowy przepływ pracy pozyskiwania nowych źródeł danych

Na poniższym diagramie pokazano, jak ściągnąć zarejestrowane źródła danych w magazynie metadanych usługi SQL Database usługi Data Factory i jak dane są najpierw pozyskiwane:

Diagram przedstawiający sposób pozyskiwania nowych źródeł danych

Potok główny pozyskiwania danych usługi Data Factory odczytuje konfiguracje z magazynu metadanych usługi SQL Database usługi Data Factory, a następnie uruchamia iteracyjne z poprawnymi parametrami. Dane są przesyłane ze źródła do warstwy pierwotnej w usłudze Azure Data Lake bez zmian. Kształt danych jest weryfikowany na podstawie magazynu metadanych usługi Data Factory. Formaty plików są konwertowane na formaty Apache Parquet lub Avro, a następnie kopiowane do wzbogaconej warstwy.

Pozyskane dane łączą się z obszarem roboczym nauki o danych i inżynierii usługi Azure Databricks, a definicja danych jest tworzona w strefie docelowej danych w magazynie metadanych Apache Hive.

Jeśli musisz użyć bezserwerowej puli SQL usługi Azure Synapse w celu uwidocznienia danych, niestandardowe rozwiązanie powinno tworzyć widoki danych w usłudze Lake.

Jeśli potrzebujesz szyfrowania na poziomie wiersza lub kolumny, niestandardowe rozwiązanie powinno umieścić dane w usłudze Data Lake, a następnie pozyskać dane bezpośrednio do tabel wewnętrznych w pulach SQL i skonfigurować odpowiednie zabezpieczenia w obliczeniach pul SQL.

Przechwycone metadane

W przypadku korzystania z zautomatyzowanego pozyskiwania danych można wykonywać zapytania dotyczące skojarzonych metadanych i tworzyć pulpity nawigacyjne w celu:

Śledź zadania i najnowsze znaczniki czasu ładowania danych dla produktów danych związanych z ich funkcjami.
Śledzenie dostępnych produktów danych.
Zwiększ woluminy danych.
Uzyskaj aktualizacje w czasie rzeczywistym dotyczące niepowodzeń zadań.

Metadane operacyjne mogą służyć do śledzenia:

Zadania, kroki zadania i ich zależności.
Wydajność zadania i historia wydajności.
Wzrost ilości danych.
Błędy zadań.
Zmiany metadanych źródłowych.
Funkcje biznesowe, które zależą od produktów danych.

Odnajdywanie danych przy użyciu interfejsu API REST usługi Azure Purview

Interfejsy API REST usługi Azure Purview powinny służyć do rejestrowania danych podczas początkowego pozyskiwania. Interfejsy API umożliwiają przesyłanie danych do wykazu danych wkrótce po ich pozyskiwaniu.

Aby uzyskać więcej informacji, zobacz jak używać interfejsów API REST usługi Azure Purview.

Rejestrowanie źródeł danych

Użyj następującego wywołania interfejsu API, aby zarejestrować nowe źródła danych:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Parametry identyfikatora URI dla źródła danych:

Nazwisko	Wymagania	Type	Opis
`accountName`	Prawda	String	Nazwa konta usługi Azure Purview
`dataSourceName`	Prawda	String	Nazwa źródła danych

Używanie interfejsu API REST usługi Azure Purview do rejestracji

W poniższych przykładach pokazano, jak używać interfejsu API REST usługi Azure Purview do rejestrowania źródeł danych przy użyciu ładunków:

Rejestrowanie źródła danych usługi Azure Data Lake Storage Gen2:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Rejestrowanie źródła danych usługi SQL Database:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Uwaga

Jest <collection-name>to bieżąca kolekcja, która istnieje na koncie usługi Azure Purview.

Tworzenie skanowania

Dowiedz się, jak utworzyć poświadczenia w celu uwierzytelniania źródeł w usłudze Azure Purview przed skonfigurowaniem i uruchomieniem skanowania.

Użyj następującego wywołania interfejsu API do skanowania źródeł danych:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Parametry identyfikatora URI skanowania:

Nazwisko	Wymagania	Type	Opis
`accountName`	Prawda	String	Nazwa konta usługi Azure Purview
`dataSourceName`	Prawda	String	Nazwa źródła danych
`newScanName`	Prawda	String	Nazwa nowego skanowania

Skanowanie przy użyciu interfejsu API REST usługi Azure Purview

W poniższych przykładach pokazano, jak używać interfejsu API REST usługi Azure Purview do skanowania źródeł danych przy użyciu ładunków:

Skanowanie źródła danych usługi Azure Data Lake Storage Gen2:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Skanowanie źródła danych usługi SQL Database:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Użyj następującego wywołania interfejsu API do skanowania źródeł danych:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Następne kroki

Omówienie usługi Azure Data Lake Storage na potrzeby analizy w skali chmury

Udostępnij za pośrednictwem