Az Azure Data Factory működése

Befejeződött

Itt megismerheti az Azure Data Factory összetevőit és összekapcsolt rendszereit. A funkcióról további információt is megtudhat. Ez segít meghatározni, hogyan használhatja a legjobban az Azure Data Factoryt a szervezet követelményeinek való megfeleléshez.

Az Azure Data Factory olyan összekapcsolt rendszerek gyűjteménye, amelyek egy végpontok közötti adatelemzési platform biztosításához kombinálhatók. Ebben a leckében a következő Azure Data Factory-függvényekkel ismerkedhet meg:

  • Csatlakozás és összegyűjtés
  • Átalakítás és bővítés
  • Folyamatos integráció és teljesítés (CI/CD) és közzététel
  • Figyelés

Megismerheti az Azure Data Factory legfontosabb összetevőit is. Ezek a következők:

  • Pipelines
  • Tevékenységek
  • Adathalmazok
  • Társított szolgáltatások
  • Adatfolyamok
  • Integrációs futtatókörnyezetek

Azure Data Factory-függvények

Az Azure Data Factory számos olyan függvényből áll, amelyek kombinálva teljes adatelemzési platformot biztosítanak az adatmérnökök számára.

Csatlakozás és összegyűjtés

A folyamat első része a szükséges adatok összegyűjtése a megfelelő adatforrásokból. Ezek különböző helyeken, például helyszíni forrásokban és a felhőben is elhelyezhetők. Az adatok a következőek lehetnek:

  • Strukturált
  • Strukturálatlan
  • Részben strukturált

Emellett ezek a különálló adatok különböző sebességgel és időközökkel érkezhetnek. Az Azure Data Factoryvel a másolási tevékenységgel adatokat helyezhet át különböző forrásokból egyetlen központi adattárba a felhőben. Az adatok másolása után más rendszerekkel alakíthatja át és elemezheti őket.

A másolási tevékenység a következő magas szintű lépéseket hajtja végre:

  1. Adatok olvasása a forrásadattárból.

  2. Hajtsa végre a következő feladatokat az adatokon:

    • Szerializálás/deszerializálás
    • Tömörítés/dekompresszió
    • Oszlopleképezés

    Megjegyzés:

    További feladatok is lehetnek.

  3. Adatok írása a céladattárba (más néven fogadóba).

Ez a folyamat a következő ábrán van összefoglalva:

Graphic that depicts the preceding process.

Átalakítás és bővítés

Miután sikeresen átmásolta az adatokat egy központi felhőalapú helyre, szükség szerint feldolgozhatja és átalakíthatja az adatokat. Ehhez az Azure Data Factory leképezési adatfolyamait fogja használni. Az adatfolyamok lehetővé teszik a Sparkon futó adatátalakítási diagramok létrehozását. Azonban nem kell ismernie a Spark-fürtöket vagy a Spark-programozást.

Tipp.

Bár nem szükséges, előfordulhat, hogy inkább manuálisan kódozza az átalakításokat. Ha igen, az Azure Data Factory támogatja a külső tevékenységeket az átalakítások futtatásához.

CI/CD és közzététel

A CI/CD támogatása lehetővé teszi az ETL-folyamatok növekményes fejlesztését és továbbítását a közzététel előtt. Az Azure Data Factory a következőkkel biztosítja az adatfolyamok CI/CD-jének használatát:

  • Azure DevOps
  • GitHub

Megjegyzés:

A folyamatos integráció azt jelenti, hogy a kódbázison végrehajtott minden módosítást a lehető leghamarabb automatikusan tesztel. A folyamatos teljesítés ezt a tesztelést követi, és módosításokat küld egy előkészítési vagy éles rendszerre.

Miután az Azure Data Factory finomított a nyers adatokon, betöltheti az adatokat abba az elemzési motorba, amelyhez az üzleti felhasználók hozzáférhetnek az üzletiintelligencia-eszközeikről, beleértve a következőket:

  • Azure Synapse Analytics
  • Azure SQL Database
  • Azure Cosmos DB

Nyomon követés

Az adatintegrációs folyamat sikeres létrehozása és üzembe helyezése után fontos, hogy nyomon tudja követni az ütemezett tevékenységeket és folyamatokat. Ez lehetővé teszi a sikeres és sikertelenségi arányok nyomon követését. Az Azure Data Factory az alábbiak egyikével támogatja a folyamatfigyelést:

  • Azure Monitor
  • API
  • PowerShell
  • Azure Monitor logs
  • Állapotpanelek az Azure Portalon

Azure Data Factory-összetevők

Az Azure Data Factory az alábbi táblázatban leírt összetevőkből áll:

Összetevő Leírás
Pipelines Egy adott munkaegységet végrehajtó tevékenységek logikai csoportosítása. Ezek a tevékenységek együttesen hajtanak végre egy feladatot. A folyamat használatának előnye, hogy egyszerűbben kezelheti a tevékenységeket készletként, nem pedig különálló elemekként.
Tevékenységek Egy folyamat egyetlen feldolgozási lépése. Az Azure Data Factory három tevékenységtípust támogat: az adatáthelyezést, az adatátalakítást és a vezérlési tevékenységeket.
Adathalmazok Az adattárak adatstruktúráinak ábrázolásához. Ezek a tevékenységekben használni kívánt adatokra mutatnak (vagy hivatkoznak) bemenetként vagy kimenetként.
Társított szolgáltatások Adja meg azOkat a szükséges kapcsolati információkat, amelyek szükségesek ahhoz, hogy az Azure Data Factory külső erőforrásokhoz, például adatforrásokhoz csatlakozzon. Az Azure Data Factory ezeket két célra használja: egy adattár vagy egy számítási erőforrás ábrázolására.
Adatfolyamok Az adatmérnökök kódírás nélkül fejleszthetnek adatátalakítási logikát. Az adatfolyamok tevékenységekként futnak az Azure Data Factory-folyamatokban, amelyek kibővített Apache Spark-fürtöket használnak.
Integrációs futtatókörnyezetek Az Azure Data Factory a számítási infrastruktúrát használja a következő adatintegrációs képességek biztosítására különböző hálózati környezetekben: adatfolyam, adatáthelyezés, tevékenységküldés és SSIS-csomagok végrehajtása. Az Azure Data Factoryben egy integrációs modul biztosítja a kapcsolatot a tevékenység és a társított szolgáltatások között.

Az alábbi ábrán látható módon ezek az összetevők együttműködve teljes körű platformot biztosítanak az adatmérnökök számára. A Data Factory használatával a következőt teheti:

  • Igény szerinti eseményindítókat állíthat be, és igény szerint ütemezheti az adatfeldolgozást.
  • Folyamat társítása eseményindítóval, vagy manuálisan indítható el igény szerint és igény szerint.
  • Csatlakozás társított szolgáltatásokhoz (például helyszíni alkalmazásokhoz és adatokhoz) vagy azure-szolgáltatásokhoz integrációs futtatókörnyezeteken keresztül.
  • Az összes folyamat natív monitorozása az Azure Data Factory felhasználói felületén vagy az Azure Monitor használatával.

Graphic that depicts the interaction of the components described in the preceding table.