Big data-elemzés nagyvállalati szintű biztonsággal az Azure Synapse használatával

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Megoldási ötletek

Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.

A cikkben ismertetett megoldás bemutatja, hogyan használható az Azure Synapse Analytics egy modern adatplatform létrehozására különböző forrásokból származó adatok betöltésére, feldolgozására, tárolására, kiszolgálására és megjelenítésére.

Architektúra

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

Az adatok a következő módon haladnak át a megoldáson:

  1. A Synapse-folyamatok nyers strukturált adatokat másolnak külső relációs adattárházakból, részben strukturált adatokból, például naplókból, egybesimított fájlokból, xml-ből és más forrásrendszerekből. Ez a betöltött adatok ezután egy Azure Data Lake Storage Gen2-helyen lesznek tárolva. Egy saját üzemeltetésű integrációs modul használatával a másolási tevékenységeket a helyszíni környezetben és a felhőben lévő adattárak között is kezelheti és futtathatja.

  2. Az Azure Data Lake Storage Gen2 biztonságos tárolást biztosít.

    • A külső támadási sebezhetőség korlátozásához ajánlott tűzfalat használni a tárfiók megbízható Azure-szolgáltatásokhoz való hozzáférésének korlátozásához.

    • Az Azure Storage-fiókok privát végpontjai lehetővé teszik, hogy a virtuális hálózaton (VNet) lévő ügyfelek biztonságosan hozzáférjenek az adatokhoz privát kapcsolaton keresztül. A privát végpont a tárfiók-szolgáltatás virtuális hálózat címteréből származó IP-címet használ. A virtuális hálózaton lévő ügyfelek és a tárfiók közötti hálózati forgalom áthalad a virtuális hálózaton és a Microsoft gerinchálózatán található privát kapcsolaton, így kiküszöböli a nyilvános internetnek való kitettséget.

  3. Az adatok inaktív állapotban vannak titkosítva, amint betöltik őket a data lake-be. A saját, ügyfél által felügyelt kulcsok használata tovább védheti a titkosítási kulcsokat, és nagyobb rugalmasságot biztosíthat a hozzáférés-vezérlések kezelése során.

  4. Az adatok a Synapse-folyamatokkal vannak betöltve, és fázisokban vannak feldolgozva a Synapse Spark-készlet és a Data Lake képességeinek használatával. Az adatok tárolása az Azure Storage-fiókban, szakaszspecifikus Azure Data Lake Storage Gen 2-címtárak használatával történik. Ezek a szakaszok a következők:

    1. A Synapse-folyamatok először a forrásrendszerekből másolják az adatokat. Ezek a betöltött adatok nyers formátumban vannak tárolva a Data Lake Bronz könyvtárával.

    2. A Synapse Spark-készlet ezután adatminőségi szabályokat futtat a nyers adatok megtisztításához. A bővített adatok ezután a Data Lake Silver könyvtárában lesznek tárolva.

    3. A tisztítási folyamat után a Spark-készlet minden szükséges normalizálást, adatátalakítást és üzleti szabályt alkalmaz a Silver könyvtárban lévő adatokon. Az átalakított adatok ezután a Data Lake Gold könyvtárában lesznek tárolva.

  5. A Synapse Apache Spark és a Synapse SQL-összekötő leküldi a normalizált adatokat a Synapse SQL-készletbe, hogy az alárendelt alkalmazások és a power BI-hoz hasonló jelentéskészítési szolgáltatások felhasználják. Ez az összekötő az Azure Synapse Analytics-munkaterület kiszolgáló nélküli Apache Spark-készletei és SQL-készletei közötti optimális adatátvitelre szolgál.

  6. A Power BI szolgáltatás DirectQuery módot használ az adatok biztonságos lekéréséhez a Synapse SQL-készletből. A privát virtuális hálózaton egy virtuális gépen telepített adatátjáró összekötő platformként működik a Power BI szolgáltatás és a Synapse SQL-készlet között, és a privát végpontot ugyanazon a virtuális hálózaton használja a biztonságos csatlakozáshoz.

  7. A külső alkalmazások a synapse kiszolgáló nélküli készletekből vagy dedikált SQL-készletekből férhetnek hozzá az adatokhoz a virtuális hálózathoz csatlakoztatott megfelelő privát végpontokhoz való hozzáféréssel.

Ez a példamegoldás számos Azure-szolgáltatást és szolgáltatást használ:

  • Az Azure Synapse Analytics a példamegoldásban az adatok betöltésére, feldolgozására és elemzésére használt alapvető szolgáltatás.

  • Az Azure Data Lake Storage (Gen2) az Azure Storage-szolgáltatásokraépül, és olyan data lake-képességeket biztosít, amelyeket a példamegoldás más szolgáltatásai az adatok tárolása és feldolgozása során használnak.

  • A Synapse-folyamatok az eredeti forrásokból másolnak adatokat a data lake storage-helyekre.

  • Az Azure Synapse Analyticsben futó Apache Spark megtisztítja, normalizálja és más feldolgozási feladatokat végez a forráshelyekről betöltött adatokon.

  • A dedikált SQL-készlet (korábbi nevén SQL DW) adatraktározási képességeket biztosít az adatokhoz a feldolgozás és normalizálás után, és készen áll a végfelhasználók és alkalmazások általi használatra.

  • A kiszolgáló nélküli SQL-készlet lehetővé teszi a felhasználók számára a feldolgozott és normalizált adatok gyors lekérdezését és elemzését.

  • Az Azure Synapse felügyelt virtuális hálózat egy elkülönített felügyelt virtuális hálózati környezetet hoz létre az Azure Synapse-munkaterülethez, így nincs szükség a munkaterület erőforrásainak hálózati konfigurációjának kezelésére.

  • Az Azure Synapse felügyelt privát végpontjai privát kapcsolatokat létesítenek az Azure-erőforrásokhoz, és csak a Microsoft gerinchálózatát használva irányítják a forgalmat az Azure Synapse-munkaterületek és más Azure-erőforrások között.

  • Az Azure Virtual Network (VNet) privát hálózatkezelési képességeket biztosít olyan Azure-erőforrásokhoz, amelyek nem részei az Azure Synapse-munkaterületnek. Lehetővé teszi a hozzáférés, a biztonság és az útválasztás kezelését az erőforrások között.

  • Az Azure Private Endpoint egy privát IP-címet biztosít a megoldás virtuális hálózatáról az Azure által felügyelt szolgáltatásokhoz, amely hatékonyan csatlakoztat egy szolgáltatást a virtuális hálózathoz. Ez biztonságos hálózatkezelést tesz lehetővé az Azure Synapse-munkaterület és más Azure-szolgáltatások, például az Azure Storage, az Azure Cosmos DB, az Azure SQL Database vagy a saját Azure Private Link szolgáltatása között.

  • A Power BI lehetővé teszi, hogy a felhasználók speciális elemzéseket végezzenek, és elemzéseket osszanak meg a megoldás feldolgozott adataival.

Összetevők

Forgatókönyv részletei

Az Azure Synapse Analytics egyesíti az adatintegrációt, a vállalati adatraktározást és a big data-elemzést, így olyan modern adatplatformot hozhat létre, amely képes kezelni a nagy szervezetek előtt álló leggyakoribb adat kihívásokat. Az Azure Virtual Network lehetővé teszi saját magánhálózat létrehozását az Azure nyilvános felhőben és felügyelt hálózatban, az Azure Private Endpoint pedig lehetővé teszi a felügyelt felhőszolgáltatások biztonságos integrálását ezekbe a magánhálózatokba.

Lehetséges használati esetek

A cikkben ismertetett megoldás bemutatja, hogyan kombinálhatja ezeket a technológiákat egy olyan modern adatplatform létrehozásához, amely képes különböző forrásokból származó adatok betöltésére, feldolgozására, tárolására, kiszolgálására és vizualizációira, strukturált és részben strukturált módon, a szervezet által elvárt magas biztonsági követelményeknek megfelelően. Ez magában foglalja a gyakori követelmények támogatását, például:

  • Adatforrások védelme. A helyszíni vállalati hálózaton vagy a virtuális hálózaton belüli adatforrásokat tűzfal védi. Ezek az erőforrások biztonságosan elérhetők egy helyileg üzemeltetett integrációs modul telepítésével a helyszínen vagy a virtuális hálózatokon üzemeltetett erőforrásokon.

  • Hitelesítés és engedélyezés felügyelt identitásokkal. Az Azure-szolgáltatások közötti kommunikáció felügyelt identitásokkal biztosítható, amelyek identitást biztosítanak az alkalmazások számára a Microsoft Entra-hitelesítést támogató erőforrásokhoz való csatlakozáskor. Ebben a példában az Azure Synapse a felügyelt identitással integrálja a folyamatokat.

  • Privát végpontok, amelyek privát kapcsolatot létesítenek az Azure-erőforrásokhoz. Az Azure Synapse teljes körűen felügyelt privát végpontfunkciókat biztosít a Synapse-munkaterületen belüli szolgáltatásokhoz (például az Azure Storage-hoz vagy az Azure Cosmos DB-hez). Más Azure-erőforrások, például az Azure-alkalmazások, a Microsoft Power BI és az Azure Synapse szolgáltatás a példamegoldás virtuális hálózatába integrált privát végpontokkal vannak védve. A privát hálózat és a Synapse-készletek közötti hálózati forgalom a Private Link használatával helyezi át a forgalmat a Microsoft gerinchálózatán, így kiküszöböli a nyilvános internetnek való kitettséget.

  • Az átvitel alatt lévő adatok titkosítása. Az adatok átvitel közben titkosítva vannak, mivel az összes adatátvitel biztonságos HTTPS-csatornán és TLS-en keresztül történik TCP-en keresztül, hogy megakadályozza a középen belüli támadásokat az Azure-szolgáltatásokkal való kommunikáció során, biztosítva a teljes körű biztonságos privát adatáthelyezést.

  • Inaktív adatok titkosítása. Az Azure Synapse Analytics transzparens adattitkosítása a Synapse-munkaterületen tárolt adatok valós idejű titkosításával és visszafejtésével segít megvédeni a rosszindulatú tevékenységeket. Az Azure Storage egy inaktív tárfiók összes adatát is titkosítja. Alapértelmezés szerint az adatok a Microsoft által felügyelt kulcsokkal lesznek titkosítva, de saját kulcsokat is kezelhet, ha további titkosítási vezérlésre van szüksége.

A forgatókönyv üzembe helyezése

Rendelkeznie kell egy meglévő Azure-fiókkal. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

A GitHub-adattárban elérhetők az Azure Resource Manager-sablonok, amelyeket az architektúrában ismertetett összetevők üzembe helyezéséhez kell telepítenie. Ezek a sablonok az architektúradiagramon látható összes szolgáltatást üzembe helyezik, kivéve a Power BI Data Gatewayt, a saját üzemeltetésű integrációs modult és az Azure Key Vaultot az ügyfél által felügyelt kulcsokhoz.

A felhasználónak kell létrehoznia a data lake mappastruktúrát és az Azure Synapse Analytics-integrációs folyamatokat, amelyek az adatforrásokhoz való csatlakozáshoz szükségesek.

Az ARM-sablon közvetlen üzembe helyezéséhez kattintson erre a gombra:

Deploy to Azure

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

Következő lépések

Ennek a megközelítésnek a továbbfejlesztéséhez ismerje meg az Azure Synapse Analytics alapjait az alábbi oktatóanyagok elvégzésével:

Az Azure Synapse Analytics használatával történő megoldások tervezése és üzembe helyezése során tekintse meg ezeket a cikkeket: