A betöltési folyamat felhőalapú analitikával az Azure-ban

Cikk
07/11/2023

Az Azure számos szolgáltatást nyújt az adatok natív és külső platformokon való betöltéséhez és kiadásához. A kötettől, a sebességtől, a változatosságtól és az iránytól függően különböző szolgáltatások használhatók. A szolgáltatások némelyike a következő:

Azure Data Factory egy olyan szolgáltatás, amely az összes (forráshoz igazított) adatalkalmazási igényhez és képességszinthez készült. Saját kódot írhat, vagy létrehozhat, kinyerhet, betölthet és átalakíthat folyamatokat az intuitív vizuális környezetben, kód nélkül. Több mint 90 natívan épített és karbantartásmentes összekötővel vizuálisan integrálhat adatforrásokat, hozzáadott költség nélkül. A mérnökök privát végpontokat és összekapcsoló szolgáltatásokat használhatnak az Azure-platformhoz szolgáltatásként (PaaS)-erőforrásokhoz való biztonságos csatlakozáshoz a PaaS-erőforrás nyilvános végpontjai nélkül. A mérnökök integrációs modulokkal bővíthetik a folyamatokat külső környezetekre, például helyszíni adatforrásokra és más felhőkre.

Ezen összekötők némelyike támogatja a forrásként (olvasás) vagy fogadóként (írás) történő használatot. Az Azure natív szolgáltatásai, az Oracle, az SAP és mások használhatók forrásként vagy fogadóként, de nem minden összekötő támogatja azt. Ezekben az esetekben olyan általános összekötőket használhat, mint az Open Database Connectivity (ODBC), a fájlrendszer vagy az SSH File Transfer Protocol (SFTP) összekötők.

Az Azure Databricks egy gyors, egyszerű és együttműködési Apache-Spark-alapú elemzési szolgáltatás. Big Data-folyamatok esetén az adatokat (nyers vagy strukturált) az Azure-ba a Data Factoryn keresztül kötegekben, vagy szinte valós időben streamelheti az Apache Kafkával, Azure Event Hubs vagy IoT Hub. Ezek az adatok egy adattóba omlanak, amely hosszú távú, tartós tárolást biztosít a Azure Data Lake Storage. Az Azure Databricks több adatforrásból is képes adatokat olvasni a munkafolyamat részeként.
A Microsoft Power Platform több száz olyan szolgáltatáshoz biztosít összekötőket , amelyek eseményalapúak, ütemezhetők vagy leküldésesek lehetnek. A Microsoft Power Automate képes az eseményekre reagálni, és egyetlen rekordhoz vagy kis adatkötetekhez optimalizált munkafolyamatokat aktiválni.

A saját fejlesztésű natív és harmadik féltől származó eszközök hiánypótló képességeket biztosítanak a speciális rendszerekkel való integrációhoz és a közel valós idejű replikációhoz.

Az Azure Data Share támogatja a szervezeteket az adatok biztonságos megosztásához több külső ügyféllel és partnerrel. Miután létrehozott egy adatmegosztási fiókot, és hozzáadott adattermékeket, az ügyfeleket és a partnereket meghívhatja az adatmegosztásba. Az adatszolgáltatók mindig felügyelik a megosztott adatokat. Az Azure Data Share egyszerűvé teszi a megosztott adatok kezelését és monitorozását, valamint azok megosztását.

Fontos

Minden adat-kezdőzóna rendelkezik egy metaadat-betöltési erőforráscsoporttal , amely adatelemzési motorral rendelkező vállalkozások számára létezik. Ha nem rendelkezik ezzel a keretrendszermotorral, az egyetlen ajánlott erőforrás egy Azure Databricks-elemzési munkaterület üzembe helyezése, amelyet az adatintegrációk az összetett betöltés futtatásához használnának. A lehetséges automatizálási mintákért tekintse meg az adatelemzési betöltési motort .

A Azure Data Factory betöltési szempontjai

Ha rendelkezik adatelemzési betöltési motorral, a betöltési és feldolgozási erőforráscsoportban minden egyes adat-kezdőzónához egyetlen Data Factoryt kell üzembe helyeznie. A Data Factory-munkaterületet ki kell zárni a felhasználók számára, és csak a felügyelt identitások és szolgáltatásnevek férhetnek hozzá az üzembe helyezéshez. Az adat-kezdőzóna-műveleteknek olvasási hozzáféréssel kell rendelkezniük a folyamat hibakeresésének engedélyezéséhez.

Az adatalkalmazás rendelkezhet saját Data Factoryval az adatáthelyezési célokra. A Data Factory minden adatalkalmazás-erőforráscsoportban a teljes folyamatos integráció (CI) és a folyamatos üzembe helyezés (CD) használatát támogatja, mivel csak az Azure DevOpsból vagy a GitHubról engedélyezi a folyamatok üzembe helyezését.

Minden Data Factory-munkaterület többnyire a Data Factory felügyelt virtuális hálózat (VNet) funkcióját vagy a saját üzemeltetésű integrációs modult fogja használni az adatkezelési célzónán belüli adat-kezdőzónához. Javasoljuk a mérnököknek, hogy a felügyelt virtuális hálózat funkcióval biztonságosan csatlakozzanak az Azure PaaS-erőforráshoz.

Azonban több integrációs futtatókörnyezetet is létrehozhat a helyszíni, külső felhőkből és harmadik féltől származó szolgáltatott szoftveres (SaaS- ) adatforrásokból való betöltéséhez.

Az Azure Databricks betöltési szempontjai

Ez az útmutató a következő információkra támaszkodik:

Az Azure Databricksből származó Azure Data Lake Storage Gen2 hozzáférésének védelme
Azure Databricks – ajánlott eljárások
Az Azure Databricks használata felhőalapú elemzéseken belül az Azure-ban
A fejlesztéshez az integrációs műveleteknek saját Azure Databricks-környezetekkel kell rendelkezniük, mielőtt a tesztelés és az éles környezet során az egyetlen Azure Databricks-munkaterületen üzembe helyezendő kódokat ellenőriznénk.
Az adatalkalmazásban (forráshoz igazított) erőforráscsoportban található Data Factorynek biztosítania kell az Azure Databricks-feladatok meghívásának keretrendszerét.
A szolgáltatásnevek segíthetnek data lake-eket csatlakoztatni ehhez a munkaterülethez. További információt az 1. minta – hozzáférés szolgáltatásnévvel című témakörben talál.
Az adatalkalmazások csapatai rövid, automatizált feladatokat helyezhetnek üzembe az Azure Databricksben, és elvárhatják, hogy a fürtök gyorsan elinduljanak, végrehajtsák a feladatot, és leálljanak. Javasoljuk, hogy állítsa be az Azure Databricks-készleteket, hogy csökkentse a fürtök számára a feladatok elindításához szükséges időt.
Javasoljuk, hogy a szervezetek az Azure DevOps használatával implementáljanak egy üzembehelyezési keretrendszert az új folyamatokhoz. A keretrendszer az adathalmaz-mappák létrehozásához, hozzáférés-vezérlési listák hozzárendeléséhez és a Databricks táblahozzáférési vezérlőinek kényszerítése nélkül történő létrehozásához használható.

Streambetöltés

Előfordulhat, hogy a szervezeteknek támogatniuk kell azokat a forgatókönyveket, amikor a közzétevők nagy sebességű eseménystreameket hoznak létre. Ehhez a mintához ajánlott üzenetsort létrehozni, például Event Hubs vagy IoT Hub, hogy betöltse ezeket a streameket.

Az Event Hubs és a IoT Hub méretezhető eseményfeldolgozó szolgáltatások, amelyek alacsony késéssel és nagy megbízhatósággal képesek nagy eseményköteteket és -adatokat betöltésre és feldolgozásra. Az Event Hubs big data streamelési és eseménybetöltési szolgáltatásként lett kialakítva. IoT Hub egy felügyelt szolgáltatás, amely központi üzenetközpontként szolgál az IoT-alkalmazások és az általa kezelt eszközök közötti kétirányú kommunikációhoz. Innen az adatok exportálhatók egy data lake-be rendszeres időközönként (kötegben), és az Azure Databricksszel közel valós időben feldolgozhatók az Apache Spark Streaming, az Azure Data Explorer, a Stream Analytics vagy a Time Series Insights segítségével.

A használati eset adott célzónán belüli utolsó Event Hubs- vagy Apache Kafka-célzónának az összesített adatait az egyik adat-célzóna data lake nyers rétegére, valamint az adat-célzónában lévő adatalkalmazáshoz (forráshoz igazított) erőforráscsoporthoz kapcsolódó Event Hubsnak kell elküldenie.

Betöltés monitorozása

A beépített Azure Data Factory folyamatmonitorozás a Data Factory-folyamatok kivételeinek monitorozására és hibaelhárítására használható. Csökkenti az egyéni monitorozási és jelentéskészítési megoldások fejlesztésének fáradozását.

A beépített monitorozás a Azure Data Factory fő vezénylési eszközként való használatának egyik fő oka, és Azure Policy segíthet a beállítás automatizálásában.

Adatforrások leképezése szolgáltatásokhoz

Az ebben a szakaszban található útmutató a betöltési és feldolgozási szolgáltatásokat olyan forrásokra képezi le, amelyeket általában be kell betölteni vagy ki kell szabadítani az Azure-ból.

Betöltési szolgáltatások:

ID (Azonosító)	Mechanizmus	Megjegyzés
A	Data Factory	Beépített és általános (ODBC, SFTP és REST) összekötők
B	Azure Databricks	Egyéni kód (JDBC, JAR stb.)
C	Külső fél	WANdisco, Qlik és Oracle GoldenGate
T	Egyéb	Például natív képességek
E	Microsoft Power Platform és Azure Logic Apps	Microsoft Power Automate-összekötők

A szolgáltatásokhoz leképező adatforrások:

Szolgáltató	Típus	Szolgáltatott	Kategória	Jegyzetek	Teljes terhelésű betöltés	Növekményes terhelés betöltése	Valós idejű betöltés	Teljes terhelésű kimenő forgalom	Növekményes terheléses kimenő forgalom	Valós idejű kimenő forgalom
Oracle	Táblázatos	IaaS	Adatbázis	GoldenGate a Azure Data Lake Storage	A, B	A, B	C	A, B	A, B	C
Microsoft SQL Server	Táblázatos	IaaS	Adatbázis	SAP Landscape Transformation és Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
MySQL	Táblázatos	IaaS	Adatbázis	SAP Landscape Transformation és Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
SAP BW/4HANA	Táblázatos	IaaS	Adatbázis	SAP Landscape Transformation és Qlik	A, B, C, D	A, B, C, D	C	-	-	-
SAP HANA	Táblázatos	IaaS	Adatbázis	SAP Landscape Transformation és Qlik	A, B, C, D	A, B, C, D	C	A, B	A, B	-
Apache Impala	Táblázatos	IaaS	Adatbázis	-	A, B	A, B	-	B	B	-
Microsoft SharePoint	Lista	SaaS	Rekordtár	-	A, E	A, E	E	A, E	A, E	E
REST	REST	Különböző	REST	XML, JSON, CSV	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E
Microsoft Outlook	E-mail	SaaS	REST	XML, JSON, CSV	E	E	E	E	E	E

A célhelytől függően a Azure Database Migration Service replikálhatók a helyszíni és külső adatbázisokból, például a Microsoft SQL Server, a PostgreSQL-ből, a MySQL-ből vagy az Oracle-ből egy Azure-alapú adattárba.

Következő lépések

SAP-betöltés felhőalapú elemzéssel az Azure-ban

Share via