Engine voor gegevensagnostische opname

Artikel
07/11/2023

In dit artikel wordt uitgelegd hoe u scenario's voor gegevensagnostische opname-engine kunt implementeren met behulp van een combinatie van PowerApps, Azure Logic Apps en metagegevensgestuurde kopieertaken binnen Azure Data Factory.

Scenario's met gegevensagnostische opname-engine zijn doorgaans gericht op het laten publiceren van gegevensassets naar een Data Lake voor verdere verwerking door niet-technische gebruikers (niet-data-engineer). Als u dit scenario wilt implementeren, moet u beschikken over onboarding-mogelijkheden die het volgende mogelijk maken:

Registratie van gegevensassets
Werkstroominrichting en metagegevens vastleggen
Opnameplanning

U kunt zien hoe deze mogelijkheden samenwerken:

Diagram van mogelijkheden en interacties voor gegevensregistratie

Afbeelding 1: Interacties met gegevensregistratiemogelijkheden.

In het volgende diagram ziet u hoe u dit proces implementeert met behulp van een combinatie van Azure-services:

Diagram van het opnameproces van een gegevensagnostische engine

Afbeelding 2: Geautomatiseerd opnameproces.

Registratie van gegevensassets

Als u de metagegevens wilt opgeven die worden gebruikt om automatische opname te stimuleren, hebt u registratie van gegevensassets nodig. De gegevens die u vastlegt, bevatten:

Technische informatie: naam van gegevensasset, bronsysteem, type, indeling en frequentie.
Governance-informatie: eigenaar, stewards, zichtbaarheid (voor detectiedoeleinden) en gevoeligheid.

PowerApps wordt gebruikt om metagegevens vast te leggen die elke gegevensasset beschrijven. Gebruik een modelgestuurde app om de gegevens in te voeren die worden opgeslagen in een aangepaste Dataverse-tabel. Wanneer metagegevens worden gemaakt of bijgewerkt in Dataverse, wordt er een geautomatiseerde cloudstroom geactiveerd die verdere verwerkingsstappen aanroept.

Diagram van een registratie van gegevensassets.

Afbeelding 3: Registratie van gegevensassets.

Inrichtingswerkstroom/metagegevens vastleggen

In de fase van de inrichtingswerkstroom valideert en bewaart u gegevens die in de registratiefase zijn verzameld in de metastore. Zowel technische als zakelijke validatiestappen worden uitgevoerd, waaronder:

Invoergegevensfeedvalidatie
Goedkeuringswerkstroom activeren
Logische verwerking om persistentie van metagegevens naar het metagegevensarchief te activeren
Activiteitscontrole

Diagram van registratiewerkstroom

Afbeelding 4: Registratiewerkstroom.

Zodra opnameaanvragen zijn goedgekeurd, gebruikt de werkstroom de Azure Purview REST API om de bronnen in te voegen in Azure Purview.

Gedetailleerde werkstroom voor onboarding van gegevensproducten

Diagram waarin wordt getoond hoe nieuwe gegevenssets worden opgenomen (geautomatiseerd)

Afbeelding 5: Hoe nieuwe gegevenssets worden opgenomen (geautomatiseerd).

Afbeelding 5 toont het gedetailleerde registratieproces voor het automatiseren van de opname van nieuwe gegevensbronnen:

Brondetails worden geregistreerd, inclusief productie- en data factory-omgevingen.
Beperkingen voor gegevensvorm, -indeling en -kwaliteit worden vastgelegd.
Datatoepassingsteams moeten aangeven of gegevens gevoelig zijn (persoonlijke gegevens) Deze classificatie bepaalt het proces waarin data lake-mappen worden gemaakt om onbewerkte, verrijkte en gecureerde gegevens op te nemen. De bronnamen onbewerkte en verrijkte gegevens en de gegevensproductnamen gecureerde gegevens.
Service-principal en beveiligingsgroepen worden gemaakt voor het opnemen van en het verlenen van toegang tot een gegevensset.
Er wordt een opnametaak gemaakt in de Data Factory-metastore van de gegevenslandingszone.
Een API voegt de gegevensdefinitie in Azure Purview in.
Afhankelijk van de validatie van de gegevensbron en goedkeuring door het ops-team, worden de details gepubliceerd in een Data Factory-metastore.

Opnameplanning

Binnen Azure Data Factory bieden kopieertaken op basis van metagegevens functionaliteit waarmee indelingspijplijnen kunnen worden aangestuurd door rijen in een besturingstabel die zijn opgeslagen in Azure SQL Database. U kunt het hulpprogramma voor het kopiëren van gegevens gebruiken om pijplijnen op basis van metagegevens vooraf te maken.

Zodra een pijplijn is gemaakt, voegt uw inrichtingswerkstroom vermeldingen toe aan de besturingselementtabel ter ondersteuning van opname van bronnen die zijn geïdentificeerd door de metagegevens van de registratie van gegevensassets. De Azure Data Factory pijplijnen en de Azure SQL Database met de metastore van de Besturingstabel kunnen beide aanwezig zijn in elke gegevenslandingszone om nieuwe gegevensbronnen te maken en op te nemen in gegevenslandingszones.

Diagram van planning van opname van gegevensassets

Afbeelding 6: Planning van opname van gegevensassets.

Gedetailleerde werkstroom voor het opnemen van nieuwe gegevensbronnen

In het volgende diagram ziet u hoe u geregistreerde gegevensbronnen ophaalt in een Data Factory-SQL Database-metastore en hoe gegevens voor het eerst worden opgenomen:

Diagram van hoe nieuwe gegevensbronnen worden opgenomen

Uw Data Factory-opnamemasterpijplijn leest configuraties uit een Data Factory-SQL Database metastore en wordt vervolgens iteratief uitgevoerd met de juiste parameters. Gegevens worden met weinig tot geen wijzigingen van de bron naar de onbewerkte laag in Azure Data Lake gereisd. De gegevensshape wordt gevalideerd op basis van uw Data Factory-metastore. Bestandsindelingen worden geconverteerd naar Apache Parquet- of Avro-indelingen en vervolgens gekopieerd naar de verrijkte laag.

Gegevens die worden opgenomen, maken verbinding met een Data Science and Engineering-werkruimte van Azure Databricks en er wordt een gegevensdefinitie gemaakt in de Apache Hive-metastore van de gegevenslandingszone.

Als u een Azure Synapse serverloze SQL-pool wilt gebruiken om gegevens beschikbaar te maken, moet uw aangepaste oplossing weergaven maken van de gegevens in de lake.

Als u versleuteling op rijniveau of kolomniveau nodig hebt, moet uw aangepaste oplossing gegevens in uw data lake landen, gegevens rechtstreeks opnemen in interne tabellen in de SQL-pools en de juiste beveiliging instellen voor de berekening van SQL-pools.

Vastgelegde metagegevens

Wanneer u geautomatiseerde gegevensopname gebruikt, kunt u een query uitvoeren op de bijbehorende metagegevens en dashboards maken om het volgende te doen:

Taken en de meest recente tijdstempels voor het laden van gegevens bijhouden voor gegevensproducten met betrekking tot hun functies.
Beschikbare gegevensproducten bijhouden.
Gegevensvolumes vergroten.
Ontvang realtime updates over taakfouten.

Operationele metagegevens kunnen worden gebruikt om het volgende bij te houden:

Taken, taakstappen en de bijbehorende afhankelijkheden.
Taakprestaties en prestatiegeschiedenis.
Groei van gegevensvolume.
Taakfouten.
Wijzigingen in bronmetagegevens.
Bedrijfsfuncties die afhankelijk zijn van gegevensproducten.

De Azure Purview REST API gebruiken om gegevens te detecteren

Azure Purview REST API's moeten worden gebruikt om gegevens te registreren tijdens de eerste opname. U kunt de API's gebruiken om gegevens naar uw gegevenscatalogus te verzenden kort nadat deze zijn opgenomen.

Zie Azure Purview REST API's gebruiken voor meer informatie.

Gegevensbronnen registreren

Gebruik de volgende API-aanroep om nieuwe gegevensbronnen te registreren:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

URI-parameters voor de gegevensbron:

Naam	Vereist	Type	Beschrijving
`accountName`	Waar	Tekenreeks	Naam van het Azure Purview-account
`dataSourceName`	Waar	Tekenreeks	Naam van de gegevensbron

De Azure Purview REST API gebruiken voor registratie

In de volgende voorbeelden ziet u hoe u de Azure Purview REST API gebruikt om gegevensbronnen met nettoladingen te registreren:

Een Azure Data Lake Storage Gen2-gegevensbron registreren:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Een SQL Database-gegevensbron registreren:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Notitie

De <collection-name>is een huidige verzameling die bestaat in een Azure Purview-account.

Een scan maken

Meer informatie over hoe u referenties kunt maken om bronnen in Azure Purview te verifiëren voordat u een scan instelt en uitvoert.

Gebruik de volgende API-aanroep om gegevensbronnen te scannen:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

URI-parameters voor een scan:

Naam	Vereist	Type	Beschrijving
`accountName`	Waar	Tekenreeks	Naam van het Azure Purview-account
`dataSourceName`	Waar	Tekenreeks	Naam van de gegevensbron
`newScanName`	Waar	Tekenreeks	Naam van de nieuwe scan

De Azure Purview REST API gebruiken voor scannen

In de volgende voorbeelden ziet u hoe u de Azure Purview REST API kunt gebruiken om gegevensbronnen met nettoladingen te scannen:

Een Azure Data Lake Storage Gen2 gegevensbron scannen:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

Een SQL Database gegevensbron scannen:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Gebruik de volgende API-aanroep om gegevensbronnen te scannen:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Volgende stappen

Overzicht van Azure Data Lake Storage voor analyses op cloudschaal

Share via