Mi az az Azure Data Factory?

2025-04-03

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

A big data világában a nyers, rendezetlen adatok tárolása leggyakrabban relációs, nem relációs vagy egyéb tárolórendszerekben történik. A nyers adatok önmagukban azonban nem biztosítanak megfelelő környezetet, sem értelmezhető elemzési lehetőségeket az elemzők, adatelemzők vagy üzleti döntéshozók számára.

A big data olyan szolgáltatást igényel, amely képes folyamatok vezénylésére és üzembe helyezésére a nyers adatok hatalmas tárolóinak végrehajtható üzleti elemzésekké való finomításához. Az Azure Data Factory egy felügyelt felhőszolgáltatás, mely az összetett hibrid ETL-, ELT- és adatintegrációs projektek kezelésére szolgál.

Az Azure Data Factory funkciói

Adattömörítés: Az adatok Copy tevékenység során tömörítheti az adatokat, és a tömörített adatokat a cél adatforrásba írhatja. Ez a funkció segít optimalizálni a sávszélesség-használatot az adatmásolás során.

A különböző adatforrások széles körű kapcsolati támogatása: Az Azure Data Factory széles körű kapcsolati támogatást nyújt a különböző adatforrásokhoz való csatlakozáshoz. Ez akkor hasznos, ha különböző adatforrásokból szeretne adatokat lekérni vagy írni.

Egyéni eseményindítók: Az Azure Data Factory lehetővé teszi az adatfeldolgozás automatizálását egyéni eseményindítók használatával. Ezzel a funkcióval automatikusan végrehajthat egy bizonyos műveletet egy adott esemény bekövetkezésekor.

Adatelőnézet és érvényesítés: Az adatok Copy tevékenység során az adatok előnézetének megtekintéséhez és ellenőrzéséhez eszközök állnak rendelkezésre. Ezzel a funkcióval biztosítható, hogy az adatok megfelelően legyenek másolva és a cél adatforrásba írva.

Testreszabható Adatfolyam: Az Azure Data Factory lehetővé teszi testre szabható adatfolyamok létrehozását. Ez a funkció lehetővé teszi egyéni műveletek vagy lépések hozzáadását az adatfeldolgozáshoz.

Integrált biztonság: Az Azure Data Factory olyan integrált biztonsági funkciókat kínál, mint az Entra ID integrációja és a szerepköralapú hozzáférés-vezérlés az adatfolyamokhoz való hozzáférés szabályozásához. Ez a funkció növeli az adatfeldolgozás biztonságát, és védi az adatokat.

Használati forgatókönyvek

Képzeljünk el például egy játékfejlesztő vállalatot, amely több petabájtnyi, a játékok által készített naplót gyűjt össze a felhőben. A vállalat e naplókat szeretné elemezni, hogy betekintést nyerhessen az ügyfelek preferenciáiba, demográfiai adataiba és felhasználói viselkedésébe, hogy ezek alapján azonosítsa az értékesítési és keresztértékesítési lehetőségeket, új funkciókat fejlesszen az üzleti növekedés elősegítése érdekében, és jobb felhasználói élményt nyújtson az ügyfeleinek.

A naplók elemzéséhez a vállalatnak a helyszíni adattárban tárolt referenciaadatokat kell felhasználnia, mint például az ügyféladatokat, a játékadatokat és a reklámkampány-adatokat. A vállalat úgy kívánja hasznosítani ezeket a helyszíni adattárakból származó adatokat, hogy azokat további, a felhőalapú adattárban lévő naplóadatokkal kombinálja.

Az elemzések kinyeréséhez úgy tervezi, hogy egy felhőbeli Spark-fürttel (Azure HDInsight) feldolgozza az összekapcsolt adatokat, és közzéteszi az átalakított adatokat egy felhőalapú adattárházban, például az Azure Synapse Analyticsben, hogy könnyen elkészíthessen egy jelentést. A vállalat automatizálni, illetve napi rendszerességgel monitorozni és kezelni szeretné ezt a munkafolyamatot. Ezenkívül végre szeretnék hajtani, amikor a fájlok egy blobtároló konténerbe kerülnek.

Az Azure Data Factory az a platform, amely az ilyen adatforgatókönyvek esetében sikeresen használható. Ez a felhőalapú ETL- és adatintegrációs szolgáltatás lehetővé teszi adatvezérelt munkafolyamatok létrehozását az adatáthelyezés és az adatok nagy léptékű átalakításához. Az Azure Data Factory segítségével létrehozhatók és ütemezhetők a különböző adattárolókból adatokat beolvasó adatvezérelt munkafolyamatok. Összetett ETL-folyamatokat hozhat létre, amelyek vizuálisan átalakítják az adatokat adatfolyamokkal, vagy olyan számítási szolgáltatások használatával, mint az Azure HDInsight Hadoop, az Azure Databricks és az Azure SQL Database.

Emellett közzéteheti az átalakított adatokat olyan adattárakban, mint az Azure Synapse Analytics, ahol az üzleti intelligencia alkalmazások (BI) felhasználhatják azokat. Végső soron az Azure Data Factory segítségével a nyers adatokat használható adattárakba rendezhetjük, így jobb üzleti döntéseket hozhatunk.

Hogyan működik?

A Data Factory egymással összekapcsolt rendszerek sorozatát tartalmazza, amelyek teljes körű platformot biztosítanak az adatszakértők számára.

Az Azure Data Factory legfelső szintű architektúradiagramját jeleníti meg.

Ez a vizuális útmutató részletes áttekintést nyújt a Data Factory teljes architektúrájáról:

További részletekért jelölje ki az előző képet a nagyításhoz, vagy keresse meg a nagy felbontású képet.

Csatlakozás és összegyűjtés

A vállalatok a legkülönfélébb adatokkal rendelkeznek a legkülönfélébb (helyszíni, felhőbeli, strukturált, strukturálatlan és részben strukturált) forrásokból, amelyek ráadásul eltérő időközzel és sebességgel érkeznek be.

Az információ-előállítási rendszerek kiépítésének első lépése az összes szükséges adatforrás és feldolgozó, például az SaaS-szolgáltatások, az adatbázisok, a fájlmegosztások és az FTP-alapú webszolgáltatások összekapcsolása. A következő lépés az adatok igényalapú átmozgatása egy központi helyre a további feldolgozás előtt.

A Data Factory nélkül a vállalatoknak egyéni adattovábbítási összetevőket kell készíteniük vagy egyéni szolgáltatásokat kell írniuk az adatforrások és feldolgozók integrálására. Az ilyen rendszerek költségesek, nehezen integrálhatóak és tarthatók karban. Továbbá gyakran nem áll rendelkezésre az a vállalati szintű monitorozási, riasztási és vezérlési funkcionalitás, amelyet egy teljes mértékben felügyelt szolgáltatás biztosítani képes.

A Data Factory segítségével a Másolási tevékenység keretében az adatok egyazon adatfolyamatban helyszíni és felhőalapú forrásadattárakból egyaránt továbbíthatóak egy, a felhőben lévő adattárba további elemzésre. Például adatokat gyűjthet az Azure Data Lake Storage-ban, és később átalakíthatja az adatokat egy Azure Data Lake Analytics számítási szolgáltatás használatával. Esetleg begyűjtheti az adatokat egy Azure Blob Storage tárolóból, és később átalakíthatja azokat egy Azure HDInsight Hadoop-fürt használatával.

Átalakítás és bővítés

Miután az adatok egy központi adattárban vannak a felhőben, feldolgozhatja vagy átalakíthatja az összegyűjtött adatokat az ADF-leképezési adatfolyamok használatával. Az adatfolyamok lehetővé teszik az adatmérnökök számára, hogy olyan adatátalakítási diagramokat építsenek ki és tartsanak fenn, amelyek Sparkon futnak, anélkül, hogy megértenék a Spark-fürtöket vagy a Spark-programozást.

Ha inkább kézzel szeretné kódolni az átalakításokat, az ADF támogatja a külső tevékenységeket az átalakítások végrehajtásához olyan számítási szolgáltatásokon, mint a HDInsight Hadoop, a Spark, a Data Lake Analytics és a Machine Learning.

CI/CD és közzététel

A Data Factory teljes körű támogatást nyújt az adatfolyamok CI/CD-hez az Azure DevOps és a GitHub használatával. Ez lehetővé teszi az ETL-folyamatok növekményes fejlesztését és továbbítását a kész termék közzététele előtt. Miután a nyers adatokat üzleti használatra kész formában finomították, töltse be az adatokat az Azure Data Warehouse-ba, az Azure SQL Database-be, az Azure Cosmos DB-be vagy bármelyik elemzési motorba, amelyre az üzleti felhasználók az üzletiintelligencia-eszközeikről mutathatnak.

Monitor

Miután sikeresen kiépítette és üzembe helyezte az adatintegrációs folyamatot, amely üzleti értéket állít elő a feldolgozott adatokból, kövesse figyelemmel az ütemezett tevékenységek és folyamatok sikerességi arányát. Az Azure Data Factory beépített támogatást nyújt a folyamatfigyeléshez az Azure Monitor, az API, a PowerShell, az Azure Monitor-naplók és az Állapotpanelek használatával az Azure Portalon.

Legfelső szintű fogalmak

Az Azure-előfizetések több Azure Data Factory-példányt (más néven adat-előállítókat) is tartalmazhatnak. Az Azure Data Factory a következő fő összetevőkből áll:

Vezetékek
Tevékenységek
Adathalmazok
Társított szolgáltatások
Adatfolyamok
Integrációs futtatókörnyezetek

Ezek együtt alkotják azt a platformot, amelyen létrehozhatók olyan adatvezérelt munkafolyamatok, amelyeknek a lépései áthelyezik és átalakítják az adatokat.

Csővezeték

Az adatgyár egy vagy több pipeline-nal rendelkezhet. A csővezeték a tevékenységek logikus csoportosítása, amely munkaegységet hajt végre. A csővezetékben lévő tevékenységek együtt hajtanak végre egy feladatot. Például a folyamat tartalmazhat egy csoportnyi műveletet, amelyek adatokat fogadnak egy Azure-blobból, majd egy Hive-lekérdezést futtatnak egy HDInsight-fürtön az adatok particionálásához.

A pipeline használatának előnye, hogy lehetővé teszi a tevékenységek együtt történő kezelését, nem pedig különállóan. Egy adott folyamat tevékenységei összefűzhetők, így azok egymás után vagy egymástól függetlenül, párhuzamosan üzemeltethetők.

Adatfolyamok leképezése

Olyan adatátalakítási logikát tartalmazó grafikonok létrehozása és kezelése, amelyekkel bármilyen méretű adatot átalakíthat. Az adatátalakítási rutinok újrafelhasználható tárát létrehozhatja, és az ADF-folyamatokból kibővített módon hajthatja végre ezeket a folyamatokat. A Data Factory végrehajtja a logikát egy Spark-fürtön, amely szükség esetén felfelé és lefelé pörög. Soha nem kell klasztereket kezelnie vagy karbantartania.

Tevékenység

Egy folyamatban a tevékenységek a feldolgozási lépéseket jelentik. A másolási tevékenység használatával például az egyik adattárból a másikba másolhatja az adatokat. Hasonlóképpen, az adatok átalakításához vagy elemzéséhez használhat egy olyan Hive-tevékenységet, amely Hive-lekérdezést futtat egy Azure HDInsight-fürtön. A Data Factory három típusú tevékenységet támogat: az adattovábbítási tevékenységeket, az adat-átalakítási tevékenységeket és a vezérlési tevékenységeket.

Adathalmazok

Az adatkészletek adatstruktúrákat jelölnek az adattárakon belül, amelyek egyszerűen rámutatnak vagy meghivatkozzák az adatokat, amelyeket a tevékenységekben be- vagy kimenetként használni szeretne.

Társított szolgáltatások

A társított szolgáltatások nagyon hasonlóak a kapcsolati sztringekhoz, amelyek meghatározzák azokat a kapcsolati információkat, amelyeket a Data Factory a külső erőforrásokhoz történő csatlakozáshoz igényel. Tulajdonképpen a társított szolgáltatás határozza meg az adatforrással való kapcsolatot, míg az adatkészlet jelöli az adatok struktúráját. Az Azure Storage társított szolgáltatása például kapcsolati sztringet szolgáltat az Azure Storage-fiókhoz való csatlakozáshoz. Az Azure Blob-adatkészlet pedig meghatározza a blobtárolót és az adatokat tartalmazó mappát.

A társított szolgáltatásokat két célból használjuk a Data Factoryban:

Sql Server-adatbázist, Oracle-adatbázist, fájlmegosztást vagy Azure Blob Storage-fiókot tartalmazó adattárat jelöl. A támogatott adattárak listáját lásd a másolási tevékenység cikkben.
Olyan számítási erőforrás jelölésére, amelyen végrehajtható a tevékenység. A HDInsightHive-tevékenység végrehajtása például egy HDInsight Hadoop-fürtön történik. Az átalakítási tevékenységek és a támogatott számítási környezetek listáját lásd az adatok átalakítása cikkben.

Integrációs futtatókörnyezet

A Data Factoryban a végrehajtandó műveletet egy tevékenység határozza meg. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modulok hídként szolgálnak a tevékenység és a társított szolgáltatások között. A társított szolgáltatás vagy tevékenység hivatkozik rá, és azt a számítási környezetet biztosítja, ahol a tevékenység fut, vagy onnan lesz elküldve. Ily módon a tevékenység végrehajtható a céladattárhoz vagy számítási szolgáltatáshoz lehető legközelebb eső régióban, a lehető leghatékonyabban, a biztonsági és megfelelőségi igényeknek is megfelelően.

Indítók

Az eseményindítók olyan feldolgozási egységek, amelyek meghatározzák, hogy mikor kezdődjön egy folyamat végrehajtása. A különböző típusú eseményekhez eltérő típusú eseményindítók tartoznak.

Csővezeték futtatások

A folyamatfuttatások a folyamat-végrehajtás egy-egy példányát jelentik. A folyamatfuttatások példányosítása jellemzően az argumentumoknak a folyamatokban meghatározott paraméterekhez történő továbbításával történik. Az argumentumok továbbítása történhet manuálisan vagy az eseményindító meghatározásán keresztül is.

Paraméterek

A paraméterek írásvédett konfigurációk kulcs-érték párjainak tekintendők.  A paraméterek meghatározása a folyamatban történik. Az e paraméterekhez tartozó argumentumok továbbítása a végrehajtás során történik a futtatási környezetből, amelyet egy eseményindító vagy egy manuálisan végrehajtott folyamat hoz létre. A csővezeték tevékenységei fogyasztják a paraméterértékeket.

Az adatkészletek szigorúan típusos paraméterek és újrahasznosítható/hivatkozható entitások együttesei. A tevékenységek hivatkozhatnak adatkészletekre, és képesek az adatkészlet-meghatározásban megadott tulajdonságok feldolgozására.

A társított szolgáltatások szintén adattárak vagy számítási környezetek kapcsolatadatait tartalmazó, szigorúan típusos paraméterek. Ezenkívül újrahasznosítható/hivatkozható entitások.

Vezérlési áramlás

A vezérlés a csővezeték tevékenységeinek vezénylése, amely magában foglalja a tevékenységek láncolását egy sorozatban, elágazást, a csővezetékszinten meghatározott paraméterek definiálását, és az argumentumok átadását, amikor a csővezeték igény szerint vagy triggerről kerül meghívásra. Tartalmazza az egyéni állapotok átadását, valamint az olyan ismétlődő elemeket, mint a példánkénti iterátorok.

Változók

A változók a folyamatokon belül ideiglenes értékek tárolására használhatók, és paraméterekkel együtt is használhatók az értékek folyamatok, adatfolyamok és egyéb tevékenységek közötti átadásának engedélyezéséhez.

Az alábbiakban a következő fontos lépéseket ismertető dokumentumokat ismerheti meg: