Modul pro příjem dat nezávislá na datech

Článek
07/11/2023

Tento článek vysvětluje, jak můžete implementovat scénáře modulu pro příjem dat nezávislé na datech pomocí kombinace PowerApps, Azure Logic Apps a úloh kopírování na základě metadat v rámci Azure Data Factory.

Scénáře modulu pro příjem dat nezávislé na datech se obvykle zaměřují na to, aby netechnické (ne-datové inženýry) uživatelé publikovali datové prostředky do data lake k dalšímu zpracování. K implementaci tohoto scénáře musíte mít možnosti onboardingu, které umožňují:

Registrace datového assetu
Zřizování pracovních postupů a zachytávání metadat
Plánování příjmu dat

Uvidíte, jak tyto funkce vzájemně spolupracují:

Diagram možností registrace dat a interakcí

Obrázek 1: Interakce možností registrace dat

Následující diagram znázorňuje, jak tento proces implementovat pomocí kombinace služeb Azure:

Diagram procesu příjmu dat v modulu nezávislém na datech

Obrázek 2: Automatizovaný proces příjmu dat

Registrace datového assetu

Pokud chcete poskytnout metadata používaná k řízení automatizovaného příjmu dat, potřebujete registraci datového assetu. Informace, které zachytíte, obsahují:

Technické informace: název datového assetu, zdrojový systém, typ, formát a frekvence.
Informace o zásadách správného řízení: vlastník, správci, viditelnost (pro účely zjišťování) a citlivost.

PowerApps slouží k zachycení metadat popisujících jednotlivé datové assety. K zadání informací, které se zachovají ve vlastní tabulce Dataverse, použijte modelem řízenou aplikaci. Při vytváření nebo aktualizaci metadat v rámci služby Dataverse se aktivuje tok automatizovaného cloudu, který vyvolá další kroky zpracování.

Diagram registrace datového assetu

Obrázek 3: Registrace datového majetku

Pracovní postup zřizování / zachytávání metadat

Ve fázi pracovního postupu zřizování ověřujete a uchováte data shromážděná ve fázi registrace do metastoru. Provedou se kroky technického i obchodního ověření, včetně následujících:

Ověření vstupního datového kanálu
Aktivace pracovního postupu schválení
Zpracování logiky pro aktivaci trvalosti metadat v úložišti metadat
Auditování aktivit

Diagram pracovního postupu registrace

Obrázek 4: Pracovní postup registrace

Po schválení žádostí o příjem dat pracovní postup použije rozhraní REST API služby Azure Purview k vložení zdrojů do služby Azure Purview.

Podrobný pracovní postup pro onboarding datových produktů

Diagram znázorňující, jak se nové datové sady ingestují (automatizované)

Obrázek 5: Jak se nové datové sady ingestují (automatizované)

Obrázek 5 ukazuje podrobný proces registrace pro automatizaci příjmu nových zdrojů dat:

Jsou zaregistrované podrobnosti o zdroji, včetně produkčních prostředí a prostředí datové továrny.
Zachytávají se omezení tvaru, formátu a kvality dat.
Týmy datových aplikací by měly určit, jestli jsou data citlivá (Osobní údaje): Tato klasifikace řídí proces vytváření složek data Lake k ingestování nezpracovaných, obohacených a kurátorovaných dat. Nezpracovaná a rozšířená data s názvy zdrojů a kurátorovaná data názvů produktů.
Instanční objekt a skupiny zabezpečení se vytvářejí pro ingestování a udělování přístupu k datové sadě.
Úloha příjmu dat se vytvoří v metastoru Data Factory cílové zóny dat.
Rozhraní API vloží definici dat do Azure Purview.
V souladu s ověřením zdroje dat a schválením provozním týmem se podrobnosti publikují do metastoru služby Data Factory.

Plánování příjmu dat

V rámci Azure Data Factory úlohy kopírování řízené metadaty poskytují funkce, které umožňují kanálům orchestrace řídit řádky v řídicí tabulce uložené v databázi Azure SQL. Pomocí nástroje pro kopírování dat můžete předem vytvořit kanály řízené metadaty.

Po vytvoření kanálu přidá pracovní postup zřizování položky do řídicí tabulky pro podporu příjmu dat ze zdrojů identifikovaných metadaty registrace datového assetu. Kanály Azure Data Factory i Azure SQL Database obsahující metastore řídicí tabulky můžou existovat v rámci každé cílové zóny dat, aby se vytvořily nové zdroje dat a ingestovaly se do cílových zón dat.

Diagram plánování příjmu datových prostředků

Obrázek 6: Plánování příjmu datových prostředků

Podrobný pracovní postup pro ingestování nových zdrojů dat

Následující diagram znázorňuje, jak vyžádat zaregistrované zdroje dat ve službě Data Factory SQL Database metastoru a jak se data ingestují jako první:

Diagram znázorňuje, jak se ingestují nové zdroje dat

Hlavní kanál pro příjem dat služby Data Factory čte konfigurace ze služby Data Factory SQL Database metastoru a pak se spustí iterativně se správnými parametry. Data putují ze zdroje do nezpracované vrstvy ve službě Azure Data Lake s minimálními nebo žádnými změnami. Datový obrazec se ověří na základě metastoru služby Data Factory. Formáty souborů se převedou na formáty Apache Parquet nebo Avro a pak se zkopírují do rozšířené vrstvy.

Ingestované data se připojí k pracovnímu prostoru datové vědy a techniky Azure Databricks a v metastoru Apache Hive se vytvoří definice dat.

Pokud k zveřejnění dat potřebujete použít Azure Synapse bezserverový fond SQL, mělo by vaše vlastní řešení vytvořit zobrazení dat v jezeře.

Pokud požadujete šifrování na úrovni řádků nebo sloupců, vaše vlastní řešení by mělo přistálo data v datovém jezeře, pak ingestovat data přímo do interních tabulek ve fondech SQL a nastavit odpovídající zabezpečení výpočetních prostředků fondů SQL.

Zachycená metadata

Při použití automatizovaného příjmu dat můžete dotazovat přidružená metadata a vytvářet řídicí panely pro:

Sledujte úlohy a nejnovější časová razítka načítání dat pro datové produkty související s jejich funkcemi.
Sledování dostupných datových produktů
Zvětšovat objemy dat.
Získejte aktualizace o selháních úloh v reálném čase.

Provozní metadata se dají použít ke sledování:

Úlohy, kroky úlohy a jejich závislosti.
Historie výkonu a výkonu úloh.
Nárůst objemu dat.
Selhání úloh.
Změny zdrojových metadat.
Obchodní funkce, které závisí na datových produktech.

Zjišťování dat pomocí rozhraní REST API služby Azure Purview

K registraci dat během počátečního příjmu dat by se měla používat rozhraní REST API služby Azure Purview. Rozhraní API můžete použít k odeslání dat do katalogu dat krátce po jejich ingestci.

Další informace najdete v tématu o používání rozhraní REST API služby Azure Purview.

Registrace zdrojů dat

K registraci nových zdrojů dat použijte následující volání rozhraní API:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Parametry identifikátoru URI pro zdroj dat:

Name	Požaduje se	Typ	Popis
`accountName`	Ano	Řetězec	Název účtu Azure Purview
`dataSourceName`	Ano	Řetězec	Název zdroje dat

Použití rozhraní REST API služby Azure Purview k registraci

Následující příklady ukazují, jak pomocí rozhraní REST API služby Azure Purview zaregistrovat zdroje dat s datovými částmi:

Registrace zdroje dat Azure Data Lake Storage Gen2:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Registrace zdroje dat SQL Database:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Poznámka

Je <collection-name>aktuální kolekce, která existuje v účtu Azure Purview.

Vytvoření kontroly

Zjistěte, jak můžete vytvořit přihlašovací údaje pro ověřování zdrojů v Azure Purview před nastavením a spuštěním kontroly.

Ke kontrole zdrojů dat použijte následující volání rozhraní API:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Parametry identifikátoru URI pro kontrolu:

Name	Požaduje se	Typ	Popis
`accountName`	Ano	Řetězec	Název účtu Azure Purview
`dataSourceName`	Ano	Řetězec	Název zdroje dat
`newScanName`	Ano	Řetězec	Název nové kontroly

Použití rozhraní REST API služby Azure Purview ke kontrole

Následující příklady ukazují, jak můžete pomocí rozhraní REST API služby Azure Purview prohledávat zdroje dat s datovými částmi:

Prohledávání zdroje dat Azure Data Lake Storage Gen2:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Kontrola zdroje dat SQL Database:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Ke kontrole zdrojů dat použijte následující volání rozhraní API:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Další kroky

Přehled Azure Data Lake Storage pro analýzy v cloudovém měřítku