Big data-analyses met beveiliging op bedrijfsniveau met behulp van Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Oplossingsideeën

Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.

De oplossing die in dit artikel wordt beschreven, laat zien hoe u Azure Synapse Analytics gebruikt om een modern gegevensplatform te bouwen voor het opnemen, verwerken, opslaan, gebruiken en visualiseren van gegevens uit verschillende bronnen.

Architectuur

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

De gegevens stromen als volgt door de oplossing:

  1. De Synapse-pijplijnen kopiëren activiteiten voor het opnemen van onbewerkte gestructureerde gegevens uit externe relationele datawarehouses, semi-gestructureerde gegevens zoals logboeken, platte bestanden en XML en andere bronsystemen. Deze opgenomen gegevens worden vervolgens opgeslagen op een Azure Data Lake Storage Gen2-locatie. Met behulp van een zelf-hostende Integration Runtime kunt u ook kopieeractiviteiten beheren en uitvoeren tussen een gegevensarchief in uw on-premises omgeving en de cloud.

  2. Azure Data Lake Storage Gen2 biedt beveiligde opslag.

    • Het gebruik van een firewall om de toegang van opslagaccounts tot vertrouwde Azure-services te beperken, wordt aanbevolen om beveiligingsproblemen met externe aanvallen te beperken.

    • Met privé-eindpunten voor uw Azure Storage-accounts kunnen clients in het virtuele netwerk (VNet) veilig toegang krijgen tot gegevens via een Private Link. Het privé-eindpunt maakt gebruik van een IP-adres uit de VNet-adresruimte voor de opslagaccountservice. Netwerkverkeer tussen de clients op het VNet en het opslagaccount loopt via het VNet en een privékoppeling op het Microsoft backbone-netwerk, waardoor blootstelling aan het openbare internet wordt geëlimineerd.

  3. Gegevens worden in rust versleuteld zodra ze worden opgenomen in de data lake. Door uw eigen door de klant beheerde sleutels te gebruiken, kunt u uw versleutelingssleutels verder beveiligen en meer flexibiliteit toevoegen bij het beheren van toegangsbeheer.

  4. Gegevens worden opgenomen met behulp van Synapse-pijplijnen en verwerkt in fasen met behulp van de Synapse Spark-pool en de bijbehorende Data Lake-mogelijkheden. Gegevens worden opgeslagen in het Azure Storage-account met behulp van fasespecifieke Azure Data Lake Storage Gen 2-directory's. Deze fasen zijn:

    1. Met de Synapse-pijplijnen worden in eerste instantie gegevens uit de bronsystemen opgenomen. Deze opgenomen gegevens worden opgeslagen in de onbewerkte indeling met behulp van de bronsmap van data lake.

    2. De Synapse Spark-pool voert vervolgens regels voor gegevenskwaliteit uit om de onbewerkte gegevens op te schonen. Deze verrijkte gegevens worden vervolgens opgeslagen in de Silver-map van data lake.

    3. Na het opschonen past de Spark-pool alle vereiste normalisatie, gegevenstransformaties en bedrijfsregels toe op de gegevens in de Silver-directory. Deze getransformeerde gegevens worden vervolgens opgeslagen in de Gold-map van data lake.

  5. De Synapse Apache Spark-connector naar Synapse SQL pusht de genormaliseerde gegevens naar de Synapse SQL-pool voor gebruik door downstreamtoepassingen en reporting services zoals Power BI. Deze connector is ontworpen om gegevens optimaal over te dragen tussen de serverloze Apache Spark-pools en de SQL-pools in de Azure Synapse Analytics-werkruimte.

  6. De Power BI-service gebruikt de DirectQuery-modus om veilig gegevens op te halen uit de Synapse SQL-pool. Een gegevensgateway die is geïnstalleerd in een virtuele machine op het privé-VNet fungeert als een verbindingsplatform tussen de Power BI-service en de Synapse SQL-pool, waarbij privé-eindpunt in hetzelfde VNet wordt gebruikt om veilig verbinding te maken.

  7. Externe toepassingen hebben toegang tot gegevens uit de serverloze Synapse-pools of toegewezen SQL-pools door toegang te krijgen tot de juiste privé-eindpunten die zijn verbonden met het VNet.

Deze voorbeeldoplossing maakt gebruik van verschillende Azure-services en -functies:

Onderdelen

Scenariodetails

Azure Synapse Analytics brengt gegevensintegratie, zakelijke datawarehousing en big data-analyses samen om u te helpen bij het bouwen van een modern gegevensplatform dat de meest voorkomende gegevensuitdagingen voor grote organisaties kan verwerken. Met Azure Virtual Network kunt u uw eigen privénetwerk maken in de openbare Azure-cloud en het beheerde netwerk, en met Azure Private Endpoint kunt u beheerde cloudservices veilig integreren in deze privénetwerken.

Potentiële gebruikscases

De oplossing die in dit artikel wordt beschreven, laat zien hoe u deze technologieën kunt combineren om een modern gegevensplatform te bouwen dat gegevens uit verschillende bronnen kan opnemen, verwerken, opslaan, leveren en visualiseren, zowel gestructureerd als semigestructureerd, terwijl aan de hoge beveiligingsstandaarden voldoet die uw organisatie verwacht. Dit omvat de ondersteuning van algemene vereisten, zoals:

  • Gegevensbronnen beveiligen. Gegevensbronnen in het on-premises bedrijfsnetwerk of in het virtuele netwerk worden beveiligd achter een firewall. Deze resources kunnen veilig worden geopend door een zelf-hostende Integration Runtime te installeren op een on-premises resource of in de virtuele netwerken.

  • Verificatie en autorisatie met behulp van beheerde identiteiten. Communicatie tussen Azure-services kan worden beveiligd met behulp van beheerde identiteiten, die een identiteit bieden voor toepassingen die kunnen worden gebruikt bij het maken van verbinding met resources die ondersteuning bieden voor Microsoft Entra-verificatie. In dit voorbeeld gebruikt Azure Synapse de beheerde identiteit om pijplijnen te integreren.

  • Privé-eindpunten voor het tot stand brengen van een privékoppeling naar Azure-resources. Azure Synapse biedt volledig beheerde functionaliteit voor privé-eindpunten voor services in de Synapse-werkruimte (zoals Azure Storage of Azure Cosmos DB). Andere Azure-resources, zoals Azure-toepassingen, Microsoft Power BI en de Azure Synapse-service, worden beveiligd met behulp van privé-eindpunten die zijn geïntegreerd in het virtuele netwerk van de voorbeeldoplossing. Netwerkverkeer tussen uw privénetwerk en de Synapse-pools maakt gebruik van Private Link om verkeer over het Backbone-netwerk van Microsoft te verplaatsen, waardoor blootstelling aan het openbare internet wordt geëlimineerd.

  • Het versleutelen van gegevens die onderweg zijn. Gegevens worden tijdens overdracht versleuteld omdat alle gegevensoverdrachten via beveiligd kanaal HTTPS en TLS via TCP zijn om man-in-the-middle-aanvallen te voorkomen tijdens communicatie met Azure-services, waardoor end-to-end veilige privégegevensverplaatsing wordt gewaarborgd.

  • Data-at-rest versleutelen. Transparante gegevensversleuteling in Azure Synapse Analytics helpt bescherming te bieden tegen schadelijke activiteiten door realtime versleuteling en ontsleuteling van uw gegevens uit te voeren die zijn opgeslagen in de Synapse-werkruimte. Azure Storage versleutelt ook alle gegevens in een opslagaccount-at-rest. Standaard worden gegevens versleuteld met door Microsoft beheerde sleutels, maar u kunt uw eigen sleutels beheren als u extra controle over versleuteling nodig hebt.

Dit scenario implementeren

U moet een bestaand Azure-account hebben. Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

De Azure Resource Manager-sjablonen, die u nodig hebt om de onderdelen te implementeren die in deze architectuur worden beschreven, zijn beschikbaar in de GitHub-opslagplaats . Met deze sjablonen worden alle services geïmplementeerd die worden weergegeven in het architectuurdiagram , met uitzondering van: de Power BI Data Gateway, zelf-hostende integratieruntime en Azure Key Vault voor door de klant beheerde sleutels.

Het is aan de gebruiker om de structuur van de Data Lake-map en de Azure Synapse Analytics-integratiepijplijnen te maken die nodig zijn om verbinding te maken met de gegevensbronnen.

Implementeer de ARM-sjabloon rechtstreeks door op deze knop te klikken:

Deploy to Azure

Bijdragers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen

Als u wilt weten hoe u deze aanpak verder kunt ontwikkelen, leert u de basisprincipes van Azure Synapse Analytics door de volgende zelfstudies uit te voeren:

Raadpleeg deze artikelen bij het plannen en implementeren van oplossingen met behulp van Azure Synapse Analytics: