Mi az a Azure Data Factory?

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

A big data világában a nyers, rendezetlen adatok tárolása leggyakrabban relációs, nem relációs vagy egyéb tárolórendszerekben történik. A nyers adatok önmagukban azonban nem biztosítanak megfelelő környezetet, sem értelmezhető elemzési lehetőségeket az elemzők, adatelemzők vagy üzleti döntéshozók számára.

A big data olyan szolgáltatást igényel, amely képes folyamatok vezénylésére és üzembe helyezésére a nyers adatok hatalmas tárolóinak végrehajtható üzleti elemzésekké való finomításához. Az Azure Data Factory egy felügyelt felhőszolgáltatás, amelyet ezekhez az összetett hibrid kinyerési-átalakító-betöltési (ETL), kinyerési-betöltési-átalakító (ELT) és adatintegrációs projektekhez fejlesztettek ki.

A Azure Data Factory jellemzői

Adattömörítés: Az adatok Copy activity során tömörítheti az adatokat, és a tömörített adatokat a cél adatforrásba írhatja. Ez a funkció segít optimalizálni a sávszélesség-használatot az adatmásolás során.

A különböző adatforrások széles körű kapcsolati támogatása: Azure Data Factory széles körű kapcsolati támogatást nyújt a különböző adatforrásokhoz való csatlakozáshoz. Ez akkor hasznos, ha különböző adatforrásokból szeretne adatokat lekérni vagy írni.

Egyéni eseményindítók: Azure Data Factory lehetővé teszi az adatfeldolgozás automatizálását egyéni eseményindítók használatával. Ezzel a funkcióval automatikusan végrehajthat egy bizonyos műveletet egy adott esemény bekövetkezésekor.

Adatelőnézet és érvényesítés: Az adatok Copy activity során az adatok előnézetének megtekintéséhez és ellenőrzéséhez eszközök állnak rendelkezésre. Ezzel a funkcióval biztosítható, hogy az adatok megfelelően legyenek másolva és a cél adatforrásba írva.

Testreszabható adatfolyamok: Azure Data Factory testre szabható adatfolyamokat hozhat létre. Ez a funkció lehetővé teszi egyéni műveletek vagy lépések hozzáadását az adatfeldolgozáshoz.

Integrált biztonság: a Azure Data Factory olyan integrált biztonsági funkciókat kínál, mint az Entra ID integráció és a szerepköralapú hozzáférés-vezérlés az adatfolyamokhoz való hozzáférés szabályozásához. Ez a funkció növeli az adatfeldolgozás biztonságát, és védi az adatokat.

Használati forgatókönyvek

Képzeljünk el például egy játékfejlesztő vállalatot, amely több petabájtnyi, a játékok által készített naplót gyűjt össze a felhőben. A vállalat e naplókat szeretné elemezni, hogy betekintést nyerhessen az ügyfelek preferenciáiba, demográfiai adataiba és felhasználói viselkedésébe, hogy ezek alapján azonosítsa az értékesítési és keresztértékesítési lehetőségeket, új funkciókat fejlesszen az üzleti növekedés elősegítése érdekében, és jobb felhasználói élményt nyújtson az ügyfeleinek.

A naplók elemzéséhez a vállalatnak a helyszíni adattárban tárolt referenciaadatokat kell felhasználnia, mint például az ügyféladatokat, a játékadatokat és a reklámkampány-adatokat. A vállalat úgy kívánja hasznosítani ezeket a helyszíni adattárakból származó adatokat, hogy azokat további, a felhőalapú adattárban lévő naplóadatokkal kombinálja.

A cél az elemzések kinyerése érdekében, hogy egy felhőalapú Spark-fürttel (Azure HDInsight) feldolgozza az összekapcsolt adatokat, és közzétegye az átalakított adatokat egy felhőalapú adattárházban, például az Azure Synapse Analyticsben, hogy könnyen készíthessen el rá jelentéseket. A vállalat automatizálni, illetve napi rendszerességgel monitorozni és kezelni szeretné ezt a munkafolyamatot. Ezenkívül végre szeretnék hajtani, amikor a fájlok egy blobtároló konténerbe kerülnek.

Azure Data Factory az ilyen adatforgatókönyveket megoldó platform. Ez a felhőalapú ETL- és adatintegrációs szolgáltatás lehetővé teszi adatvezérelt munkafolyamatok létrehozását az adatáthelyezés és az adatok nagy léptékű átalakításához. Az Azure Data Factory használatával adatvezérelt munkafolyamatokat (úgynevezett pipeline-okat) hozhat létre és ütemezhet, amelyek különböző adattárakból származó adatokat tudnak beolvasni. Összetett ETL-folyamatokat hozhat létre, amelyek vizuálisan alakítják át az adatokat adatfolyamokkal, vagy olyan számítási szolgáltatások használatával, mint Azure HDInsight Hadoop, Azure Databricks és Azure SQL Database.

Emellett közzéteheti az átalakított adatokat olyan adattárakban, mint például a Azure Synapse Analytics üzletiintelligencia-alkalmazások számára. Végső soron a Azure Data Factory keresztül a nyers adatok értelmezhető adattárakba és adattavakba szervezhetők a jobb üzleti döntések érdekében.

Hogyan működik?

A Data Factory egymással összekapcsolt rendszerek sorozatát tartalmazza, amelyek teljes körű platformot biztosítanak az adatszakértők számára.

Az Azure Data Factory legfelső szintű architektúráját mutató diagram.

Ez a vizuális útmutató részletes áttekintést nyújt a Data Factory teljes architektúrájáról:

További részletekért jelölje ki az előző képet a nagyításhoz, vagy keresse meg a nagy felbontású képet. Itt megismerheti ennek a vizuális útmutatónak a fejlesztését és a dokumentációs projekt vázlatát.

Csatlakozás és összegyűjtés

A vállalatok a legkülönfélébb adatokkal rendelkeznek a legkülönfélébb (helyszíni, felhőbeli, strukturált, strukturálatlan és részben strukturált) forrásokból, amelyek ráadásul eltérő időközzel és sebességgel érkeznek be.

Az információ-előállítási rendszerek kiépítésének első lépése az összes szükséges adatforrás és feldolgozó, például az SaaS-szolgáltatások, az adatbázisok, a fájlmegosztások és az FTP-alapú webszolgáltatások összekapcsolása. A következő lépés az adatok igényalapú átmozgatása egy központi helyre a további feldolgozás előtt.

A Data Factory nélkül a vállalatoknak egyéni adattovábbítási összetevőket kell készíteniük vagy egyéni szolgáltatásokat kell írniuk az adatforrások és feldolgozók integrálására. Az ilyen rendszerek költségesek, nehezen integrálhatóak és tarthatók karban. Továbbá gyakran nem áll rendelkezésre az a vállalati szintű monitorozási, riasztási és vezérlési funkcionalitás, amelyet egy teljes mértékben felügyelt szolgáltatás biztosítani képes.

A Data Factory segítségével a Másolási tevékenység keretében az adatok egyazon adatfolyamatban helyszíni és felhőalapú forrásadattárakból egyaránt továbbíthatóak egy, a felhőben lévő adattárba további elemzésre. Például adatokat gyűjthet Azure Data Lake Storage, és később átalakíthatja az adatokat egy Azure Data Lake Analytics számítási szolgáltatás használatával. Az Azure Blob Storage-ban is gyűjthet adatokat, amelyeket később egy Azure HDInsight Hadoop-fürt használatával átalakíthat.

Átalakítás és bővítés

Miután az adatok egy központi adattárban vannak a felhőben, feldolgozhatja vagy átalakíthatja az összegyűjtött adatokat az ADF-leképezési adatfolyamok használatával. Az adatfolyamok lehetővé teszik az adatmérnökök számára, hogy olyan adatátalakítási diagramokat építsenek ki és tartsanak fenn, amelyek Sparkon futnak, anélkül, hogy megértenék a Spark-fürtöket vagy a Spark-programozást.

Ha inkább manuálisan szeretné kódolni az átalakításokat, az ADF támogatja a külső tevékenységeket az átalakítások végrehajtásához olyan számítási szolgáltatásokon, mint a HDInsight Hadoop, a Spark, a Data Lake Analytics és a Machine Learning.

CI/CD és közzététel

Data Factory teljes körű támogatást nyújt a CI/CD adatfolyamataihoz Azure DevOps és GitHub használatával. Ez lehetővé teszi az ETL-folyamatok növekményes fejlesztését és továbbítását a kész termék közzététele előtt. Miután a nyers adatokat üzleti használatra kész formában finomították, töltse be az adatokat Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB vagy bármelyik elemzési motorba, amelyre az üzleti felhasználók az üzletiintelligencia-eszközeikről mutathatnak.

Monitor

Miután sikeresen kiépítette és üzembe helyezte az adatintegrációs folyamatot, amely üzleti értéket állít elő a feldolgozott adatokból, kövesse figyelemmel az ütemezett tevékenységek és folyamatok sikerességi arányát. Azure Data Factory beépített támogatással rendelkezik a folyamatfigyeléshez Azure Monitor, API, PowerShell, Azure Monitor naplók és állapotpanelek segítségével a Azure portálon.

Legfelső szintű fogalmak

Egy Azure-előfizetés egy vagy több Azure Data Factory példányt (vagy adat-előállítót) tartalmazhat. Azure Data Factory a következő fő összetevőkből áll:

Vezetékek
Tevékenységek
Adathalmazok
Társított szolgáltatások
Adatfolyamok
Integrációs futtatókörnyezetek

Ezek együtt alkotják azt a platformot, amelyen létrehozhatók olyan adatvezérelt munkafolyamatok, amelyeknek a lépései áthelyezik és átalakítják az adatokat.

Pipeline

Az adatgyár egy vagy több pipeline-nal rendelkezhet. A csővezeték a tevékenységek logikus csoportosítása, amely munkaegységet hajt végre. A csővezetékben lévő tevékenységek együtt hajtanak végre egy feladatot. A folyamatok tartalmazhatnak például olyan tevékenységeket, amelyek egy Azure-blobból betöltik az adatokat, majd hive-lekérdezést futtatnak egy HDInsight-fürtön az adatok particionálásához.

A pipeline használatának előnye, hogy lehetővé teszi a tevékenységek együtt történő kezelését, nem pedig különállóan. Egy adott folyamat tevékenységei összefűzhetők, így azok egymás után vagy egymástól függetlenül, párhuzamosan üzemeltethetők.

Adatfolyamok leképezése

Olyan adatátalakítási logikát tartalmazó grafikonok létrehozása és kezelése, amelyekkel bármilyen méretű adatot átalakíthat. Az adatátalakítási rutinok újrafelhasználható tárát létrehozhatja, és az ADF-folyamatokból kibővített módon hajthatja végre ezeket a folyamatokat. A Data Factory végrehajtja a logikát egy Spark-fürtön, amely szükség esetén felfelé és lefelé pörög. Soha nem kell klasztereket kezelnie vagy karbantartania.

Tevékenység

Egy folyamatban a tevékenységek a feldolgozási lépéseket jelentik. A másolási tevékenység használatával például az egyik adattárból a másikba másolhatja az adatokat. Hasonlóképpen használhat egy Hive-tevékenységet is, amely hive-lekérdezést futtat egy Azure HDInsight-fürtön az adatok átalakításához vagy elemzéséhez. A Data Factory három típusú tevékenységet támogat: az adattovábbítási tevékenységeket, az adat-átalakítási tevékenységeket és a vezérlési tevékenységeket.

Adathalmazok

Az adatkészletek adatstruktúrákat jelölnek az adattárakon belül, amelyek egyszerűen rámutatnak vagy meghivatkozzák az adatokat, amelyeket a tevékenységekben be- vagy kimenetként használni szeretne.

Társított szolgáltatások

A társított szolgáltatások nagyon hasonlóak a kapcsolati sztringekhoz, amelyek meghatározzák azokat a kapcsolati információkat, amelyeket a Data Factory a külső erőforrásokhoz történő csatlakozáshoz igényel. Tulajdonképpen a társított szolgáltatás határozza meg az adatforrással való kapcsolatot, míg az adatkészlet jelöli az adatok struktúráját. Egy Azure Storage-hez kapcsolódó szolgáltatás például megad egy kapcsolati karakterláncot az Azure Storage-fiókhoz való csatlakozáshoz. Emellett egy Azure blobadatkészlet megadja a blobtárolót és az adatokat tartalmazó mappát.

A társított szolgáltatásokat két célból használjuk a Data Factoryban:

Egy adattár ábrázolása, amely magában foglalja SQL Server adatbázist, Oracle-adatbázist, fájlmegosztást vagy Azure blobtároló-fiókot. A támogatott adattárak listáját lásd a másolási tevékenység cikkben.
Olyan számítási erőforrás jelölésére, amelyen végrehajtható a tevékenység. A HDInsightHive-tevékenység végrehajtása például egy HDInsight Hadoop-fürtön történik. Az átalakítási tevékenységek és a támogatott számítási környezetek listáját lásd az adatok átalakítása cikkben.

Integration Runtime

A Data Factoryban a végrehajtandó műveletet egy tevékenység határozza meg. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modulok hídként szolgálnak a tevékenység és a társított szolgáltatások között. A társított szolgáltatás vagy tevékenység hivatkozik rá, és azt a számítási környezetet biztosítja, ahol a tevékenység fut, vagy onnan lesz elküldve. Ily módon a tevékenység végrehajtható a céladattárhoz vagy számítási szolgáltatáshoz lehető legközelebb eső régióban, a lehető leghatékonyabban, a biztonsági és megfelelőségi igényeknek is megfelelően.

Indítók

Az eseményindítók olyan feldolgozási egységek, amelyek meghatározzák, hogy mikor kezdődjön egy folyamat végrehajtása. A különböző típusú eseményekhez eltérő típusú eseményindítók tartoznak.

Csővezeték futtatások

A folyamatfuttatások a folyamat-végrehajtás egy-egy példányát jelentik. A folyamatfuttatások példányosítása jellemzően az argumentumoknak a folyamatokban meghatározott paraméterekhez történő továbbításával történik. Az argumentumok továbbítása történhet manuálisan vagy az eseményindító meghatározásán keresztül is.

Paraméterek

A paraméterek írásvédett konfigurációk kulcs-érték párjainak tekintendők.  A paraméterek meghatározása a folyamatban történik. Az e paraméterekhez tartozó argumentumok továbbítása a végrehajtás során történik a futtatási környezetből, amelyet egy eseményindító vagy egy manuálisan végrehajtott folyamat hoz létre. A csővezeték tevékenységei fogyasztják a paraméterértékeket.

Az adatkészletek szigorúan típusos paraméterek és újrahasznosítható/hivatkozható entitások együttesei. A tevékenységek hivatkozhatnak adatkészletekre, és képesek az adatkészlet-meghatározásban megadott tulajdonságok feldolgozására.

A társított szolgáltatások szintén adattárak vagy számítási környezetek kapcsolatadatait tartalmazó, szigorúan típusos paraméterek. Ezenkívül újrahasznosítható/hivatkozható entitások.

Vezérlési áramlás

A vezérlés a csővezeték tevékenységeinek vezénylése, amely magában foglalja a tevékenységek láncolását egy sorozatban, elágazást, a csővezetékszinten meghatározott paraméterek definiálását, és az argumentumok átadását, amikor a csővezeték igény szerint vagy triggerről kerül meghívásra. Tartalmazza az egyéni állapotok átadását, valamint az olyan ismétlődő elemeket, mint a példánkénti iterátorok.

Változók

A változók a folyamatokon belül ideiglenes értékek tárolására használhatók, és paraméterekkel együtt is használhatók az értékek folyamatok, adatfolyamok és egyéb tevékenységek közötti átadásának engedélyezéséhez.

Az alábbiakban a következő fontos lépéseket ismertető dokumentumokat ismerheti meg:

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2026-04-07