Modul pro příjem dat nezávislá na datech
Tento článek vysvětluje, jak můžete implementovat scénáře modulu pro příjem dat nezávislé na datech pomocí kombinace PowerApps, Azure Logic Apps a úloh kopírování na základě metadat v rámci Azure Data Factory.
Scénáře modulu pro příjem dat nezávislé na datech se obvykle zaměřují na to, aby netechnické (ne-datové inženýry) uživatelé publikovali datové prostředky do data lake k dalšímu zpracování. K implementaci tohoto scénáře musíte mít možnosti onboardingu, které umožňují:
- Registrace datového assetu
- Zřizování pracovních postupů a zachytávání metadat
- Plánování příjmu dat
Uvidíte, jak tyto funkce vzájemně spolupracují:
Obrázek 1: Interakce možností registrace dat
Následující diagram znázorňuje, jak tento proces implementovat pomocí kombinace služeb Azure:
Obrázek 2: Automatizovaný proces příjmu dat
Registrace datového assetu
Pokud chcete poskytnout metadata používaná k řízení automatizovaného příjmu dat, potřebujete registraci datového assetu. Informace, které zachytíte, obsahují:
- Technické informace: název datového assetu, zdrojový systém, typ, formát a frekvence.
- Informace o zásadách správného řízení: vlastník, správci, viditelnost (pro účely zjišťování) a citlivost.
PowerApps slouží k zachycení metadat popisujících jednotlivé datové assety. K zadání informací, které se zachovají ve vlastní tabulce Dataverse, použijte modelem řízenou aplikaci. Při vytváření nebo aktualizaci metadat v rámci služby Dataverse se aktivuje tok automatizovaného cloudu, který vyvolá další kroky zpracování.
Obrázek 3: Registrace datového majetku
Pracovní postup zřizování / zachytávání metadat
Ve fázi pracovního postupu zřizování ověřujete a uchováte data shromážděná ve fázi registrace do metastoru. Provedou se kroky technického i obchodního ověření, včetně následujících:
- Ověření vstupního datového kanálu
- Aktivace pracovního postupu schválení
- Zpracování logiky pro aktivaci trvalosti metadat v úložišti metadat
- Auditování aktivit
Obrázek 4: Pracovní postup registrace
Po schválení žádostí o příjem dat pracovní postup použije rozhraní REST API služby Azure Purview k vložení zdrojů do služby Azure Purview.
Podrobný pracovní postup pro onboarding datových produktů
Obrázek 5: Jak se nové datové sady ingestují (automatizované)
Obrázek 5 ukazuje podrobný proces registrace pro automatizaci příjmu nových zdrojů dat:
- Jsou zaregistrované podrobnosti o zdroji, včetně produkčních prostředí a prostředí datové továrny.
- Zachytávají se omezení tvaru, formátu a kvality dat.
- Týmy datových aplikací by měly určit, jestli jsou data citlivá (Osobní údaje): Tato klasifikace řídí proces vytváření složek data Lake k ingestování nezpracovaných, obohacených a kurátorovaných dat. Nezpracovaná a rozšířená data s názvy zdrojů a kurátorovaná data názvů produktů.
- Instanční objekt a skupiny zabezpečení se vytvářejí pro ingestování a udělování přístupu k datové sadě.
- Úloha příjmu dat se vytvoří v metastoru Data Factory cílové zóny dat.
- Rozhraní API vloží definici dat do Azure Purview.
- V souladu s ověřením zdroje dat a schválením provozním týmem se podrobnosti publikují do metastoru služby Data Factory.
Plánování příjmu dat
V rámci Azure Data Factory úlohy kopírování řízené metadaty poskytují funkce, které umožňují kanálům orchestrace řídit řádky v řídicí tabulce uložené v databázi Azure SQL. Pomocí nástroje pro kopírování dat můžete předem vytvořit kanály řízené metadaty.
Po vytvoření kanálu přidá pracovní postup zřizování položky do řídicí tabulky pro podporu příjmu dat ze zdrojů identifikovaných metadaty registrace datového assetu. Kanály Azure Data Factory i Azure SQL Database obsahující metastore řídicí tabulky můžou existovat v rámci každé cílové zóny dat, aby se vytvořily nové zdroje dat a ingestovaly se do cílových zón dat.
Obrázek 6: Plánování příjmu datových prostředků
Podrobný pracovní postup pro ingestování nových zdrojů dat
Následující diagram znázorňuje, jak vyžádat zaregistrované zdroje dat ve službě Data Factory SQL Database metastoru a jak se data ingestují jako první:
Hlavní kanál pro příjem dat služby Data Factory čte konfigurace ze služby Data Factory SQL Database metastoru a pak se spustí iterativně se správnými parametry. Data putují ze zdroje do nezpracované vrstvy ve službě Azure Data Lake s minimálními nebo žádnými změnami. Datový obrazec se ověří na základě metastoru služby Data Factory. Formáty souborů se převedou na formáty Apache Parquet nebo Avro a pak se zkopírují do rozšířené vrstvy.
Ingestované data se připojí k pracovnímu prostoru datové vědy a techniky Azure Databricks a v metastoru Apache Hive se vytvoří definice dat.
Pokud k zveřejnění dat potřebujete použít Azure Synapse bezserverový fond SQL, mělo by vaše vlastní řešení vytvořit zobrazení dat v jezeře.
Pokud požadujete šifrování na úrovni řádků nebo sloupců, vaše vlastní řešení by mělo přistálo data v datovém jezeře, pak ingestovat data přímo do interních tabulek ve fondech SQL a nastavit odpovídající zabezpečení výpočetních prostředků fondů SQL.
Zachycená metadata
Při použití automatizovaného příjmu dat můžete dotazovat přidružená metadata a vytvářet řídicí panely pro:
- Sledujte úlohy a nejnovější časová razítka načítání dat pro datové produkty související s jejich funkcemi.
- Sledování dostupných datových produktů
- Zvětšovat objemy dat.
- Získejte aktualizace o selháních úloh v reálném čase.
Provozní metadata se dají použít ke sledování:
- Úlohy, kroky úlohy a jejich závislosti.
- Historie výkonu a výkonu úloh.
- Nárůst objemu dat.
- Selhání úloh.
- Změny zdrojových metadat.
- Obchodní funkce, které závisí na datových produktech.
Zjišťování dat pomocí rozhraní REST API služby Azure Purview
K registraci dat během počátečního příjmu dat by se měla používat rozhraní REST API služby Azure Purview. Rozhraní API můžete použít k odeslání dat do katalogu dat krátce po jejich ingestci.
Další informace najdete v tématu o používání rozhraní REST API služby Azure Purview.
Registrace zdrojů dat
K registraci nových zdrojů dat použijte následující volání rozhraní API:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}
Parametry identifikátoru URI pro zdroj dat:
Name | Požaduje se | Typ | Popis |
---|---|---|---|
accountName |
Ano | Řetězec | Název účtu Azure Purview |
dataSourceName |
Ano | Řetězec | Název zdroje dat |
Použití rozhraní REST API služby Azure Purview k registraci
Následující příklady ukazují, jak pomocí rozhraní REST API služby Azure Purview zaregistrovat zdroje dat s datovými částmi:
Registrace zdroje dat Azure Data Lake Storage Gen2:
{
"kind":"AdlsGen2",
"name":"<source-name> (for example, My-AzureDataLakeStorage)",
"properties":{
"endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Registrace zdroje dat SQL Database:
{
"kind":"<source-kind> (for example, AdlsGen2)",
"name":"<source-name> (for example, My-AzureSQLDatabase)",
"properties":{
"serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
"subscriptionId":"<azure-subscription-guid>",
"resourceGroup":"<resource-group>",
"location":"<region>",
"parentCollection":{
"type":"DataSourceReference",
"referenceName":"<collection-name>"
}
}
}
Poznámka
Je <collection-name>
aktuální kolekce, která existuje v účtu Azure Purview.
Vytvoření kontroly
Zjistěte, jak můžete vytvořit přihlašovací údaje pro ověřování zdrojů v Azure Purview před nastavením a spuštěním kontroly.
Ke kontrole zdrojů dat použijte následující volání rozhraní API:
PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/
Parametry identifikátoru URI pro kontrolu:
Name | Požaduje se | Typ | Popis |
---|---|---|---|
accountName |
Ano | Řetězec | Název účtu Azure Purview |
dataSourceName |
Ano | Řetězec | Název zdroje dat |
newScanName |
Ano | Řetězec | Název nové kontroly |
Použití rozhraní REST API služby Azure Purview ke kontrole
Následující příklady ukazují, jak můžete pomocí rozhraní REST API služby Azure Purview prohledávat zdroje dat s datovými částmi:
Prohledávání zdroje dat Azure Data Lake Storage Gen2:
{
"name":"<scan-name>",
"kind":"AdlsGen2Msi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AdlsGen2"
}
}
Kontrola zdroje dat SQL Database:
{
"name":"<scan-name>",
"kind":"AzureSqlDatabaseMsi",
"properties":
{
"scanRulesetType":"System",
"scanRulesetName":"AzureSqlDatabase",
"databaseName": "<database-name>",
"serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
}
}
Ke kontrole zdrojů dat použijte následující volání rozhraní API:
POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run