Megosztás a következőn keresztül:


Az adatbetöltési folyamat felhőméretű elemzésekkel az Azure-ban

Az Azure számos szolgáltatást biztosít az adatok natív és külső platformokon való betöltéséhez és kiadásához. A különböző szolgáltatások a kötet, a sebesség, a változatosság és az irány függvényében használhatók. Néhány ilyen szolgáltatás a következő:

  • Azure Data Factory egy olyan szolgáltatás, amely minden (forráshoz igazított) adatalkalmazáshoz és képességszinthez készült. Saját kódot írhat, vagy létrehozhat, kinyerhet, betölthet és átalakíthat folyamatokat az intuitív vizuális környezetben, kód nélkül. Több mint 90 natívan beépített és karbantartásmentes összekötővel vizuálisan integrálhat adatforrásokat, hozzáadott költség nélkül. A mérnökök privát végpontokat és összekapcsoló szolgáltatásokat használhatnak az Azure-platformhoz szolgáltatásként (PaaS)-erőforrásokhoz való biztonságos csatlakozáshoz a PaaS-erőforrás nyilvános végpontjai nélkül. A mérnökök integrációs futtatókörnyezetekkel bővíthetik a folyamatokat külső környezetekre, például helyszíni adatforrásokra és más felhőkre.

Ezen összekötők némelyike támogatja a forrásként (olvasás) vagy fogadóként (írás) történő használatot. Az Azure natív szolgáltatásai, az Oracle, az SAP és mások használhatók forrásként vagy fogadóként, de nem minden összekötő támogatja azt. Ezekben az esetekben olyan általános összekötőket használhat, mint az Open Database Connectivity (ODBC), a fájlrendszer vagy az SSH File Transfer Protocol (SFTP) összekötők.

  • Azure Databricks egy gyors, egyszerű és együttműködésen alapuló Apache-Spark-alapú elemzési szolgáltatás. Egy big data-folyamat esetén az adatokat, legyen az nyers vagy strukturált, a Data Factoryn keresztül kötegekben vagy szinte valós időben streamelhetjük az Apache Kafka, az Azure Event Hubs vagy az IoT Hub használatával. Ezek az adatok egy data lake-ben landoltak az Azure Data Lake Storage hosszú távú, tartós tárolásához. Az Azure Databricks a munkafolyamat részeként több adatforrásból is képes adatokat olvasni.

  • A Microsoft Power Platform összekötőket biztosít több száz olyan szolgáltatáshoz,, amelyek esemény-, ütemezés- vagy leküldéses alapúak lehetnek. A Microsoft Power Automate képes műveleteket végrehajtani az eseményeken, és elindíthatja az önálló rekordokhoz vagy kis adatmennyiségekhez optimalizált munkafolyamatokat.

A saját fejlesztésű natív és külső eszközök hiánypótló képességeket biztosítanak a speciális rendszerekkel való integrációhoz és a közel valós idejű replikációhoz.

  • Azure Data Share támogatja a szervezeteket az adatok biztonságos megosztásához több külső ügyféllel és partnerrel. Miután létrehozott egy adatmegosztási fiókot, és hozzáadott adattermékeket, az ügyfeleket és a partnereket meghívhatja az adatmegosztásba. Az adatszolgáltatók mindig felügyelik a megosztott adatokat. Az Azure Data Share segítségével egyszerűen kezelheti és figyelheti, hogy mely adatokat, mikor és ki osztott meg.

Fontos

Minden adat-kezdőzóna rendelkezhet egy adatbetöltési erőforráscsoporttal, amely adatelemzési motorral rendelkező vállalatok számára létezik. Ha nem rendelkezik ezzel a keretrendszermotorral, az egyetlen ajánlott erőforrás egy Azure Databricks-elemzési munkaterület üzembe helyezése, amelyet az adatintegrációk használnának összetett betöltési feladatok futtatásához. A lehetséges automatizálási mintákért tekintse meg az adat-semleges betöltőmotor -et.

Az Azure Data Factory betöltési szempontjai

Ha rendelkezik adatsemleges betöltési motorral, az adatleltár erőforráscsoportban minden egyes adat-kezdőzónához külön Data Factoryt kell üzembe helyeznie. A Data Factory-munkaterületet le kell zárni a felhasználók számára, és csak a felügyelt identitás- és szolgáltatásnevek férhetnek hozzá az üzembe helyezéshez. Az adat-kezdőzóna műveleteinek olvasási hozzáféréssel kell rendelkezniük a folyamat hibakeresésének engedélyezéséhez.

Az adatalkalmazás rendelkezhet saját Data Factory-ral az adatáthelyezéshez. A Data Factory minden adatalkalmazás-erőforráscsoportban teljes körű folyamatos integrációt (CI) és folyamatos üzembe helyezést (CD) támogat azáltal, hogy csak az Azure DevOpsból vagy a GitHubról engedélyezi a folyamatok üzembe helyezését.

Minden Data Factory-munkaterület többnyire a Felügyelt virtuális hálózat (VNet) funkciót fogja használni a Data Factoryben, vagy saját üzemeltetésű integrációs modult az adatkezelési célzónán belüli adat-kezdőzónájukhoz. A mérnököknek javasoljuk, hogy a felügyelt virtuális hálózat funkcióval biztonságosan csatlakozzanak az Azure PaaS-erőforráshoz.

Azonban több integrációs futtatókörnyezetet is létrehozhat a helyszíni, harmadik féltől származó felhőkből és harmadik féltől származó szolgáltatott szoftveres (SaaS-) adatforrásokból való betöltéshez.

Az Azure Databricks betöltési szempontjai

Ez az útmutató a következő információkra támaszkodik:

  • Az Azure Databricks hozzáférésének biztosítása az Azure Data Lake Storage Gen2-höz

  • az Azure Databricks ajánlott eljárásainak

  • A fejlesztéshez az integrációs műveleteknek saját Azure Databricks-környezetekkel kell rendelkezniük, mielőtt a tesztelés és az éles környezet során az egyetlen Azure Databricks-munkaterületen üzembe helyezendő kódokat ellenőriznénk.

  • Az adatalkalmazásban (forráshoz igazított) erőforráscsoportban található Data Factorynek biztosítania kell az Azure Databricks-feladatok meghívásának keretrendszerét.

  • Az adatalkalmazás-csapatok rövid, automatizált feladatokat helyezhetnek üzembe az Azure Databricksben, és elvárhatják, hogy a fürtök gyorsan elinduljanak, végrehajtsák a feladatot, és leálljanak. Ajánlott az Azure Databricks készleteket úgy beállítani, hogy csökkentse az időtartamot, amely a feladatokhoz szükséges fürtök felállításához szükséges.

  • Javasoljuk, hogy a szervezetek az Azure DevOps használatával implementálják az új folyamatok üzembehelyezési keretrendszerét. A keretrendszer az adathalmazmappák létrehozásához, a hozzáférés-vezérlési listák hozzárendeléséhez és a Databricks táblahozzáférési vezérlőinek kényszerítése nélküli táblák létrehozásához használható.

Streambetöltés

Előfordulhat, hogy a szervezeteknek támogatniuk kell azokat a forgatókönyveket, ahol a közzétevők nagy sebességű eseménystreameket hoznak létre. Ehhez a mintához ajánlott üzenetküldési sor használata, például az Event Hubs vagy az IoT Hub, hogy fel tudja dolgozni ezeket az adatfolyamokat.

Az Event Hubs és az IoT Hub méretezhető eseményfeldolgozási szolgáltatások, amelyek alacsony késéssel és nagy megbízhatósággal képesek nagy eseménymennyiségeket és adatokat befogni és feldolgozni. Az Event Hubs big data streaming és event ingestion szolgáltatásként lett kialakítva. Az IoT Hub egy felügyelt szolgáltatás, amely központi üzenetközpontként szolgál az IoT-alkalmazások és az általa kezelt eszközök közötti kétirányú kommunikációhoz. Innen az adatok exportálhatók egy data lake-be rendszeres időközönként (kötegben), és közel valós időben feldolgozhatók az Azure Databricksszel az Apache Spark Streaming, az Azure Data Explorer, a Stream Analytics vagy a Time Series Insights segítségével.

A használati eset speciális leszállási zónáján belüli utolsó Event Hubs vagy Apache Kafka leszállási zónának az összesített adatait el kell küldenie az adattó nyers rétegére az egyik adat-leszállási zónában, valamint az adat-leszállási zóna adatalkalmazáshoz kapcsolódó (forráshoz igazított) erőforráscsoportjának Event Hubs-hoz.

Adatbevitel figyelése

A beépített Azure Data Factory csővezeték-figyelés használható a Data Factory csővezetékek kivételeinek monitorozására és hibaelhárítására. Csökkenti az egyéni monitorozási és jelentéskészítési megoldások fejlesztésének fáradozását.

A beépített monitorozás az Azure Data Factory fő vezénylési eszközként való használatának egyik fő oka, és az Azure Policy segíthet a beállítás automatizálásában.

Következő lépések

SAP-betöltés felhőalapú elemzéssel az Azure