Adatgnosztikus betöltési motor

Cikk
05/29/2024

Ez a cikk azt ismerteti, hogyan valósíthat meg adatelemzési betöltési motor forgatókönyveket a PowerApps, az Azure Logic Apps és a metaadatokon alapuló másolási feladatok kombinációjával az Azure Data Factoryben.

Az adatelemzési motor forgatókönyvei általában arra összpontosítanak, hogy a nem műszaki (nem adatmérnök) felhasználók adategységeket tegyenek közzé a Data Lake-ben további feldolgozás céljából. A forgatókönyv implementálásához olyan előkészítési képességekkel kell rendelkeznie, amelyek lehetővé teszik:

Adategység-regisztráció
Munkafolyamat kiépítése és metaadatok rögzítése
Betöltési ütemezés

Láthatja, hogy ezek a képességek hogyan működnek együtt:

Az adatregisztrációs képességek és interakciók diagramja

1. ábra: Az adatregisztrációs képességek interakciói.

Az alábbi ábra bemutatja, hogyan implementálhatja ezt a folyamatot az Azure-szolgáltatások kombinációjával:

Adatelemzési motorbetöltési folyamat ábrája

2. ábra: Automatizált betöltési folyamat.

Adategység-regisztráció

Az automatikus betöltéshez használt metaadatok megadásához adategység-regisztrációra van szükség. A rögzített adatok a következőket tartalmazzák:

Technikai információ: Adategység neve, forrásrendszere, típusa, formátuma és gyakorisága.
Irányítási információk: Tulajdonos, gondnokok, láthatóság (felderítési célokra) és bizalmasság.

A PowerApps az egyes adategységeket leíró metaadatok rögzítésére szolgál. Modellalapú alkalmazással adja meg az egyéni Dataverse-táblában tárolt adatokat. Ha a dataverse-ben metaadatok jönnek létre vagy frissülnek, egy automatizált felhőfolyamatot aktivál, amely további feldolgozási lépéseket hív meg.

Az adategység-regisztráció diagramja.

3. ábra: Adategység-regisztráció.

Munkafolyamat/metaadat-rögzítés kiépítése

A kiépítési munkafolyamat szakaszában érvényesítheti és megőrizheti a regisztrációs szakaszban gyűjtött adatokat a metaadattárban. Mind a műszaki, mind az üzleti érvényesítési lépéseket végrehajtjuk, beleértve a következőket:

Bemeneti adatcsatorna ellenőrzése
Jóváhagyási munkafolyamat aktiválása
Logic processing to trigger persistence of metadata to the metadata store
Tevékenységnaplózás

A regisztrációs munkafolyamat ábrája

4. ábra: Regisztrációs munkafolyamat.

A betöltési kérelmek jóváhagyása után a munkafolyamat az Azure Purview REST API használatával szúrja be a forrásokat az Azure Purview-ba.

Részletes munkafolyamat az adattermékek előkészítéséhez

Diagram az új adathalmazok betöltésének módjáról (automatizált)

5. ábra: Az új adathalmazok betöltése (automatizált).

Az 5. ábra az új adatforrások betöltésének automatizálására szolgáló részletes regisztrációs folyamatot mutatja be:

A forrásadatok regisztrálva vannak, beleértve az éles és az adat-előállító környezeteket is.
A rendszer rögzíti az adatalakzatot, a formátumot és a minőségre vonatkozó korlátozásokat.
Az adatalkalmazási csapatoknak jelezniük kell, hogy az adatok bizalmasak-e (Személyes adatok). Ez a besorolás vezérli a Data Lake-mappák létrehozásának folyamatát a nyers, bővített és válogatott adatok betöltéséhez. A forrás a nyers és bővített adatokat, valamint az adattermék-neveket válogatott adatoknak nevezi.
Szolgáltatásnév- és biztonsági csoportok jönnek létre az adatkészletek betöltéséhez és hozzáférésének biztosításához.
A data factory metaadat-adattárban létrejön egy betöltési feladat.
Az API beszúrja az adatdefiníciót az Azure Purview-ba.
Az adatforrás ellenőrzésének és az ops csapat általi jóváhagyásának függvényében a részletek közzé lesznek téve egy Data Factory-metaadattárban.

Betöltési ütemezés

Az Azure Data Factoryben a metaadatalapú másolási feladatok olyan funkciókat biztosítanak, amelyek lehetővé teszik a vezénylési folyamatokat az Azure SQL Database-ben tárolt vezérlőtáblák sorai alapján. Az Adatmásolás eszközzel előre létrehozhat metaadatalapú folyamatokat.

Miután létrehozott egy folyamatot, a kiépítési munkafolyamat bejegyzéseket ad hozzá a vezérlőtáblához, hogy támogassa az adategység-regisztrációs metaadatok által azonosított forrásokból történő betöltést. Az Azure Data Factory-folyamatok és a Control Table-metaadattárat tartalmazó Azure SQL Database is létezhet az egyes adat-kezdőzónákban új adatforrások létrehozásához és adat-kezdőzónákba való betöltéséhez.

Az adategység-betöltés ütemezésének diagramja

6. ábra: Az adategységek betöltésének ütemezése.

Részletes munkafolyamat új adatforrások betöltéséhez

Az alábbi ábra bemutatja, hogyan kérhetők le regisztrált adatforrások a Data Factory SQL Database metaadattárában, és hogyan történik az adatok első betöltése:

Az új adatforrások betöltésének diagramja

A Data Factory betöltési főfolyamata beolvassa a konfigurációkat egy Data Factory SQL Database-metaadattárból, majd iteratív módon futtatja a megfelelő paraméterekkel. Az adatok a forrástól a nyers rétegig haladnak az Azure Data Lake-ben, és alig változnak. Az adatalakzat érvényesítése a Data Factory metaadattára alapján történik. A fájlformátumok Apache Parquet- vagy Avro-formátumokká alakulnak, majd átmásolódnak a bővített rétegbe.

A betöltött adatok egy Azure Databricks-adatelemzési és -mérnöki munkaterülethez csatlakoznak, és egy adatdefiníció jön létre az Apache Hive adat-kezdőzónában.

Ha kiszolgáló nélküli Azure Synapse SQL-készletet kell használnia az adatok felfedéséhez, az egyéni megoldásnak nézeteket kell létrehoznia a tóban lévő adatokról.

Ha sorszintű vagy oszlopszintű titkosítást igényel, az egyéni megoldásnak az adatokat a data lake-ben kell leküldnie, majd közvetlenül az SQL-készletek belső tábláiba kell beszednie az adatokat, és megfelelő biztonságot kell beállítania az SQL-készletek számítási adataihoz.

Rögzített metaadatok

Automatizált adatbetöltés használatakor lekérdezheti a társított metaadatokat, és irányítópultokat hozhat létre a következőre:

Nyomon követheti a függvényekhez kapcsolódó adattermékek feladatait és a legújabb adatbetöltési időbélyegeket.
Az elérhető adattermékek nyomon követése.
Adatmennyiségek növelése.
Valós idejű frissítések beszerzése a feladathibákról.

A működési metaadatok a következő nyomon követésére használhatók:

Feladatok, feladatlépések és függőségeik.
Feladatteljesítmény és teljesítményelőzmények.
Adatmennyiség növekedése.
Feladathibák.
A forrás metaadatainak változásai.
Adattermékektől függő üzleti függvények.

Adatok felderítése az Azure Purview REST API használatával

Az Azure Purview REST API-kat az adatok kezdeti betöltése során történő regisztrálásához kell használni. Az API-k segítségével az adatok nem sokkal a betöltés után elküldhetők az adatkatalógusba.

További információ: Azure Purview REST API-k használata.

Adatforrások regisztrálása

Az alábbi API-hívással regisztrálhat új adatforrásokat:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

Az adatforrás URI-paraméterei:

Név	Kötelező	Típus	Leírás
`accountName`	Igaz	Sztring	Az Azure Purview-fiók neve
`dataSourceName`	Igaz	Sztring	Az adatforrás neve

Az Azure Purview REST API használata regisztrációhoz

Az alábbi példák bemutatják, hogyan lehet az Azure Purview REST API használatával adatforrásokat regisztrálni hasznos adatokkal:

Azure Data Lake Storage Gen2-adatforrás regisztrálása:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

SQL Database-adatforrás regisztrálása:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

Feljegyzés

Ez <collection-name>egy Azure Purview-fiókban található jelenlegi gyűjtemény.

Vizsgálat létrehozása

Megtudhatja, hogyan hozhat létre hitelesítő adatokat források hitelesítéséhez az Azure Purview-ban a vizsgálat beállítása és futtatása előtt.

Az adatforrások vizsgálatához használja a következő API-hívást:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

Vizsgálat URI-paraméterei:

Név	Kötelező	Típus	Leírás
`accountName`	Igaz	Sztring	Az Azure Purview-fiók neve
`dataSourceName`	Igaz	Sztring	Az adatforrás neve
`newScanName`	Igaz	Sztring	Az új vizsgálat neve

Az Azure Purview REST API használata vizsgálathoz

Az alábbi példák bemutatják, hogyan használhatja az Azure Purview REST API-t az adatforrások hasznos adatokkal való vizsgálatára:

Azure Data Lake Storage Gen2-adatforrás vizsgálata:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

SQL Database-adatforrás vizsgálata:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

Az adatforrások vizsgálatához használja a következő API-hívást:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

Következő lépések

Az Azure Data Lake Storage áttekintése felhőalapú elemzésekhez

Megosztás a következőn keresztül: