Megoldási ötletek
Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.
A cikkben ismertetett megoldás bemutatja, hogyan használható az Azure Synapse Analytics egy modern adatplatform létrehozására különböző forrásokból származó adatok betöltésére, feldolgozására, tárolására, kiszolgálására és megjelenítésére.
Architektúra
Töltse le az architektúra Visio-fájlját.
Adatfolyam
Az adatok a következő módon haladnak át a megoldáson:
A Synapse-folyamatok nyers strukturált adatokat másolnak külső relációs adattárházakból, részben strukturált adatokból, például naplókból, egybesimított fájlokból, xml-ből és más forrásrendszerekből. Ez a betöltött adatok ezután egy Azure Data Lake Storage Gen2-helyen lesznek tárolva. Egy saját üzemeltetésű integrációs modul használatával a másolási tevékenységeket a helyszíni környezetben és a felhőben lévő adattárak között is kezelheti és futtathatja.
Az Azure Data Lake Storage Gen2 biztonságos tárolást biztosít.
A külső támadási sebezhetőség korlátozásához ajánlott tűzfalat használni a tárfiók megbízható Azure-szolgáltatásokhoz való hozzáférésének korlátozásához.
Az Azure Storage-fiókok privát végpontjai lehetővé teszik, hogy a virtuális hálózaton (VNet) lévő ügyfelek biztonságosan hozzáférjenek az adatokhoz privát kapcsolaton keresztül. A privát végpont a tárfiók-szolgáltatás virtuális hálózat címteréből származó IP-címet használ. A virtuális hálózaton lévő ügyfelek és a tárfiók közötti hálózati forgalom áthalad a virtuális hálózaton és a Microsoft gerinchálózatán található privát kapcsolaton, így kiküszöböli a nyilvános internetnek való kitettséget.
Az adatok inaktív állapotban vannak titkosítva, amint betöltik őket a data lake-be. A saját, ügyfél által felügyelt kulcsok használata tovább védheti a titkosítási kulcsokat, és nagyobb rugalmasságot biztosíthat a hozzáférés-vezérlések kezelése során.
Az adatok a Synapse-folyamatokkal vannak betöltve, és fázisokban vannak feldolgozva a Synapse Spark-készlet és a Data Lake képességeinek használatával. Az adatok tárolása az Azure Storage-fiókban, szakaszspecifikus Azure Data Lake Storage Gen 2-címtárak használatával történik. Ezek a szakaszok a következők:
A Synapse-folyamatok először a forrásrendszerekből másolják az adatokat. Ezek a betöltött adatok nyers formátumban vannak tárolva a Data Lake Bronz könyvtárával.
A Synapse Spark-készlet ezután adatminőségi szabályokat futtat a nyers adatok megtisztításához. A bővített adatok ezután a Data Lake Silver könyvtárában lesznek tárolva.
A tisztítási folyamat után a Spark-készlet minden szükséges normalizálást, adatátalakítást és üzleti szabályt alkalmaz a Silver könyvtárban lévő adatokon. Az átalakított adatok ezután a Data Lake Gold könyvtárában lesznek tárolva.
A Synapse Apache Spark és a Synapse SQL-összekötő leküldi a normalizált adatokat a Synapse SQL-készletbe, hogy az alárendelt alkalmazások és a power BI-hoz hasonló jelentéskészítési szolgáltatások felhasználják. Ez az összekötő az Azure Synapse Analytics-munkaterület kiszolgáló nélküli Apache Spark-készletei és SQL-készletei közötti optimális adatátvitelre szolgál.
A Power BI szolgáltatás DirectQuery módot használ az adatok biztonságos lekéréséhez a Synapse SQL-készletből. A privát virtuális hálózaton egy virtuális gépen telepített adatátjáró összekötő platformként működik a Power BI szolgáltatás és a Synapse SQL-készlet között, és a privát végpontot ugyanazon a virtuális hálózaton használja a biztonságos csatlakozáshoz.
A külső alkalmazások a synapse kiszolgáló nélküli készletekből vagy dedikált SQL-készletekből férhetnek hozzá az adatokhoz a virtuális hálózathoz csatlakoztatott megfelelő privát végpontokhoz való hozzáféréssel.
Ez a példamegoldás számos Azure-szolgáltatást és szolgáltatást használ:
Az Azure Synapse Analytics a példamegoldásban az adatok betöltésére, feldolgozására és elemzésére használt alapvető szolgáltatás.
Az Azure Data Lake Storage (Gen2) az Azure Storage-szolgáltatásokraépül, és olyan data lake-képességeket biztosít, amelyeket a példamegoldás más szolgáltatásai az adatok tárolása és feldolgozása során használnak.
A Synapse-folyamatok az eredeti forrásokból másolnak adatokat a data lake storage-helyekre.
Az Azure Synapse Analyticsben futó Apache Spark megtisztítja, normalizálja és más feldolgozási feladatokat végez a forráshelyekről betöltött adatokon.
A dedikált SQL-készlet (korábbi nevén SQL DW) adatraktározási képességeket biztosít az adatokhoz a feldolgozás és normalizálás után, és készen áll a végfelhasználók és alkalmazások általi használatra.
A kiszolgáló nélküli SQL-készlet lehetővé teszi a felhasználók számára a feldolgozott és normalizált adatok gyors lekérdezését és elemzését.
Az Azure Synapse felügyelt virtuális hálózat egy elkülönített felügyelt virtuális hálózati környezetet hoz létre az Azure Synapse-munkaterülethez, így nincs szükség a munkaterület erőforrásainak hálózati konfigurációjának kezelésére.
Az Azure Synapse felügyelt privát végpontjai privát kapcsolatokat létesítenek az Azure-erőforrásokhoz, és csak a Microsoft gerinchálózatát használva irányítják a forgalmat az Azure Synapse-munkaterületek és más Azure-erőforrások között.
Az Azure Virtual Network (VNet) privát hálózatkezelési képességeket biztosít olyan Azure-erőforrásokhoz, amelyek nem részei az Azure Synapse-munkaterületnek. Lehetővé teszi a hozzáférés, a biztonság és az útválasztás kezelését az erőforrások között.
Az Azure Private Endpoint egy privát IP-címet biztosít a megoldás virtuális hálózatáról az Azure által felügyelt szolgáltatásokhoz, amely hatékonyan csatlakoztat egy szolgáltatást a virtuális hálózathoz. Ez biztonságos hálózatkezelést tesz lehetővé az Azure Synapse-munkaterület és más Azure-szolgáltatások, például az Azure Storage, az Azure Cosmos DB, az Azure SQL Database vagy a saját Azure Private Link szolgáltatása között.
A Power BI lehetővé teszi, hogy a felhasználók speciális elemzéseket végezzenek, és elemzéseket osszanak meg a megoldás feldolgozott adataival.
Összetevők
Forgatókönyv részletei
Az Azure Synapse Analytics egyesíti az adatintegrációt, a vállalati adatraktározást és a big data-elemzést, így olyan modern adatplatformot hozhat létre, amely képes kezelni a nagy szervezetek előtt álló leggyakoribb adat kihívásokat. Az Azure Virtual Network lehetővé teszi saját magánhálózat létrehozását az Azure nyilvános felhőben és felügyelt hálózatban, az Azure Private Endpoint pedig lehetővé teszi a felügyelt felhőszolgáltatások biztonságos integrálását ezekbe a magánhálózatokba.
Lehetséges használati esetek
A cikkben ismertetett megoldás bemutatja, hogyan kombinálhatja ezeket a technológiákat egy olyan modern adatplatform létrehozásához, amely képes különböző forrásokból származó adatok betöltésére, feldolgozására, tárolására, kiszolgálására és vizualizációira, strukturált és részben strukturált módon, a szervezet által elvárt magas biztonsági követelményeknek megfelelően. Ez magában foglalja a gyakori követelmények támogatását, például:
Adatforrások védelme. A helyszíni vállalati hálózaton vagy a virtuális hálózaton belüli adatforrásokat tűzfal védi. Ezek az erőforrások biztonságosan elérhetők egy helyileg üzemeltetett integrációs modul telepítésével a helyszínen vagy a virtuális hálózatokon üzemeltetett erőforrásokon.
Hitelesítés és engedélyezés felügyelt identitásokkal. Az Azure-szolgáltatások közötti kommunikáció felügyelt identitásokkal biztosítható, amelyek identitást biztosítanak az alkalmazások számára a Microsoft Entra-hitelesítést támogató erőforrásokhoz való csatlakozáskor. Ebben a példában az Azure Synapse a felügyelt identitással integrálja a folyamatokat.
Privát végpontok, amelyek privát kapcsolatot létesítenek az Azure-erőforrásokhoz. Az Azure Synapse teljes körűen felügyelt privát végpontfunkciókat biztosít a Synapse-munkaterületen belüli szolgáltatásokhoz (például az Azure Storage-hoz vagy az Azure Cosmos DB-hez). Más Azure-erőforrások, például az Azure-alkalmazások, a Microsoft Power BI és az Azure Synapse szolgáltatás a példamegoldás virtuális hálózatába integrált privát végpontokkal vannak védve. A privát hálózat és a Synapse-készletek közötti hálózati forgalom a Private Link használatával helyezi át a forgalmat a Microsoft gerinchálózatán, így kiküszöböli a nyilvános internetnek való kitettséget.
Az átvitel alatt lévő adatok titkosítása. Az adatok átvitel közben titkosítva vannak, mivel az összes adatátvitel biztonságos HTTPS-csatornán és TLS-en keresztül történik TCP-en keresztül, hogy megakadályozza a középen belüli támadásokat az Azure-szolgáltatásokkal való kommunikáció során, biztosítva a teljes körű biztonságos privát adatáthelyezést.
Inaktív adatok titkosítása. Az Azure Synapse Analytics transzparens adattitkosítása a Synapse-munkaterületen tárolt adatok valós idejű titkosításával és visszafejtésével segít megvédeni a rosszindulatú tevékenységeket. Az Azure Storage egy inaktív tárfiók összes adatát is titkosítja. Alapértelmezés szerint az adatok a Microsoft által felügyelt kulcsokkal lesznek titkosítva, de saját kulcsokat is kezelhet, ha további titkosítási vezérlésre van szüksége.
A forgatókönyv üzembe helyezése
Rendelkeznie kell egy meglévő Azure-fiókkal. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
A GitHub-adattárban elérhetők az Azure Resource Manager-sablonok, amelyeket az architektúrában ismertetett összetevők üzembe helyezéséhez kell telepítenie. Ezek a sablonok az architektúradiagramon látható összes szolgáltatást üzembe helyezik, kivéve a Power BI Data Gatewayt, a saját üzemeltetésű integrációs modult és az Azure Key Vaultot az ügyfél által felügyelt kulcsokhoz.
A felhasználónak kell létrehoznia a data lake mappastruktúrát és az Azure Synapse Analytics-integrációs folyamatokat, amelyek az adatforrásokhoz való csatlakozáshoz szükségesek.
Az ARM-sablon közvetlen üzembe helyezéséhez kattintson erre a gombra:
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Kiran Kalyanam | Vezető szoftvermérnök
Következő lépések
Ennek a megközelítésnek a továbbfejlesztéséhez ismerje meg az Azure Synapse Analytics alapjait az alábbi oktatóanyagok elvégzésével:
Kapcsolódó erőforrások
Az Azure Synapse Analytics használatával történő megoldások tervezése és üzembe helyezése során tekintse meg ezeket a cikkeket:
Az Azure Synapse-munkaterületek adatkiszivárgás elleni védelme
Kapcsolódás az Azure Synapse Studióhoz Azure-beli Private Link-központok használatával
Csatlakozás biztonságos Azure-tárfiókba a Synapse-munkaterületről
A Microsoft Entra-hitelesítés használata a Synapse SQL-lel való hitelesítéshez