Meerdere gegevenszones voor analyses op cloudschaal in Azure

Deze referentiearchitectuur is bedoeld voor organisaties die een basisversie van analyses op cloudschaal hebben geïmplementeerd en nu klaar zijn om nieuwe bedrijfseenheden te hosten om hun analysebewerkingen te moderniseren. In dit complexere scenario worden meerdere landingszones, gegevenstoepassingen en gegevensproducten gebruikt.

Apache Hive en het Hive-logo zijn gedeponeerde handelsmerken of handelsmerken van de Apache Software Foundation in de Verenigde Staten en/of andere landen. Er wordt geen goedkeuring door De Apache Software Foundation geïmpliceerd door het gebruik van deze markeringen.

Probleemformulering

Relecloud, het fictieve bedrijf in dit voorbeeld, is een privécloudprovider die gedeelde computing- en opslagresources biedt aan wereldwijde organisaties. Hoewel Relecloud rekenresources biedt, willen ze hun platform niet beperken met hun eigen interne bewerkingen. Daarom zijn ze afhankelijk van Microsoft Azure voor hun interne rekenbehoeften.

Gegevensanalisten in de operations-groep gebruiken telemetriegegevens van cloudservices om te begrijpen hoe hun klanten het platform gebruiken. Een afzonderlijk team van analisten in de factureringsgroep onderzoekt factureringsgegevens om inzicht te krijgen in welke services de meeste omzet genereren.

Vorig kwartaal heeft het operations-team het analyseplatform gemoderniseerd door het naar Azure te migreren. Een doel bij het implementeren van cloudanalyses was het maximaliseren van het potentieel voor het schalen van het platform en het toevoegen van nieuwe organisatieworkloads.

Tegenwoordig is de factureringsgroep de huidige analyseoplossing ontgroeid. Het te analyseren volume van facturen is te groot voor hun on-premises server. Het team besluit de lead van de operations-groep te volgen en hun data analytics-platform in Azure te moderniseren.

Analisten in de factureringsgroep hebben andere vaardigheden dan analisten in de operationele groep. De factureringsanalisten willen niet worden beperkt tot het gebruik van dezelfde hulpprogramma's als bewerkingen. De factureringsgroep bevindt zich in een ander deel van de organisatie en wil de flexibiliteit om het beleid en de procedures te implementeren die aan hun behoeften voldoen.

Architectuuroplossing

Relecloud schaalt hun analyseplatform door een nieuwe landingszone toe te voegen voor de factureringsgroep. Deze landingszone biedt een virtuele werkruimte voor de factureringsgroep om de analyseoplossingen te implementeren die voldoen aan hun bedrijfsbehoeften. Door een landingszone gescheiden te hebben van de andere resources van de organisatie, kan de factureringsgroep hun eigen toegangsbeleid implementeren en rekening houden met de kosten van hun services.

Het volgende diagram vertegenwoordigt niet alle Azure-services. Het diagram is vereenvoudigd om de belangrijkste concepten van het organiseren van resources binnen de architectuur te benadrukken.

Diagram of a multiple landing zone architecture for cloud-scale analytics.

Landingszone voor gegevensbeheer

Een belangrijke vereiste voor een cloudanalyse-implementatie is een landingszone voor gegevensbeheer. Dit abonnement bevat resources die worden gedeeld in alle landingszones, inclusief gedeelde netwerkonderdelen, zoals een firewall of privé-DNS-zones. De landingszone voor gegevensbeheer bevat ook resources voor gegevens en cloudgovernance, zoals Azure Policy en Azure Purview.

Relecloud heeft een landingszone voor gegevensbeheer gemaakt bij het implementeren van de oplossing voor gegevensanalyse voor de bewerkingsgroep. Wanneer de factureringsgroep lid wordt van het platform, gebruiken ze dezelfde landingszone voor gegevensbeheer om gemeenschappelijke resources te delen met de bewerkingsgroep.

Landingszone voor bewerkingsgegevens

De bewerkingsgroep heeft de volgende oplossingen in de gegevenslandingszone.

Bewerkingsgegevenstoepassingen

Het team heeft een op de bron afgestemde gegevenstoepassing gebouwd die Apache Spark-taken in Azure Databricks gebruikt om servicetelemetriegegevens op te nemen en op te slaan in een Azure Data Lake Storage-account.

Met dit proces worden de gegevens gekopieerd van het bronsysteem, maar worden deze niet getransformeerd. Analisten kunnen met de gekopieerde gegevens in het analyseplatform werken zonder het bronsysteem te overbelasten. In plaats van een toegewezen implementatie te maken voor deze gegevenstoepassing, gebruikt het operations-team de Databricks-werkruimte in de gedeelde resourcegroep Voor opnemen en verwerken .

Relecloud-klanten kunnen cloudaccounts maken voor het beheren van resources en facturering in hun privéclouds. Elke klant kan meerdere accounts hebben. Het analyseteam heeft een gegevenstoepassing gebouwd om de gegevens van het cloudaccount te importeren. Omdat het volume en de frequentie van gegevens veel lager is dan voor telemetriegegevens, hoeft het team geen Spark-taken te gebruiken. In plaats daarvan hebben ze Azure Data Factory-pijplijnen gemaakt om de gegevens te kopiëren.

Azure Database for MySQL fungeert als de Hive-metastore en Azure SQL Database is de Azure Data Factory-metastore.

Bewerkingsgegevensproducten

Relecloud-analisten krijgen waarde van de gegevens in de op de bron afgestemde gegevenstoepassingen door nieuwe, op de consument afgestemde gegevenstoepassingen te maken. Een van deze op de consument afgestemde gegevenstoepassingen is een cloudservice-aanbevelingsmodel . Relecloud-gegevenswetenschappers gebruikten Azure Machine Learning om een model te bouwen dat kijkt naar de services die een cloudaccount verbruikt, en stelt gerelateerde services voor die nuttig kunnen zijn. Het team implementeert dit model in een AKS-cluster (Azure Kubernetes Service) dat wordt uitgevoerd in de landingszone en wordt beheerd door Azure Machine Learning. Toepassingen die buiten cloudanalyses worden uitgevoerd, kunnen het AKS-eindpunt aanroepen om aanbevelingen te krijgen.

Nadat het factureringsteam de landingszone heeft gemaakt, maakt het operations-team een nieuw gegevensproduct dat het managementteam aanvraagt. Het beheerteam wil weten hoeveel omzet de cloudservice aanbeveelt om gegevens te genereren. Het nieuwe product voor de omzet van de aanbeveling maakt gebruik van Azure Synapse Analytics om gegevens van de cloudserviceaanbeveelaar en revenue per service te combineren in een nieuw gegevensproduct. Bedrijfsanalisten kunnen verbinding maken met Azure Synapse met Microsoft Power BI om inzichten uit dit nieuwe gegevensproduct te vinden en te rapporteren.

Landingszone voor factureringsgegevens

De factureringsgroep maakte gebruik van een on-premises systeem om hun analyses in te schakelen, maar naarmate het gegevensvolume groeide en het bedrijf meer op hun werk vertrouwde, kon het systeem het tempo niet bijhouden. De groep moderniseert hun platform door over te stappen naar de cloud.

De factureringsgroep deelt geen landingszone met de bewerkingsgroep, maar krijgt een eigen landingszone waar ze de vrijheid hebben om het platform te bouwen dat het beste bij hun behoeften past. De nieuwe landingszone is verbonden met de landingszone voor gegevensbeheer en alle andere landingszones met peering van virtuele netwerken. Met dit mechanisme kunnen gegevens veilig worden gedeeld via het interne Azure-netwerk.

Toepassingen voor factureringsgegevens

De factureringsgroep bouwt twee gegevenstoepassingen om gegevens van bestaande systemen in het analyseplatform te plaatsen. De eerste toepassing neemt de klantgegevens op, inclusief de volledige lijst met klanten en alle gerelateerde gegevens, zoals klantadressen, locaties en verkoopmedewerkertoewijzingen. De tweede toepassing importeert de factuurgeschiedenis van het bedrijf, inclusief alle factureringskosten voor klanten en de gerelateerde betalingsgegevens.

Beide toepassingen worden mogelijk gemaakt door pijplijnen in de gedeelde Azure Synapse-werkruimte. Elke toepassing heeft een toegewezen rekengroep om kostenboekhouding en beveiligingsgrenzen te vergemakkelijken. Omdat de toepassingen volledig kunnen worden geïmplementeerd met gedeelde resources, hoeft de factureringsgroep geen implementatie te maken voor deze gegevenstoepassingen.

Product voor factureringsgegevens

De factureringsanalisten maken een nieuw gegevensproduct met de naam Revenue by Service waarmee wordt geanalyseerd hoeveel omzet elke cloudservice genereert voor Relecloud. Dit product is afhankelijk van de gegevens in de opname facturen . Het product maakt ook verbinding met de landingszone voor bewerkingen en leest de servicegebruiksgegevens. Net als bij de gegevenstoepassingen is het gegevensproduct ook afhankelijk van de gedeelde Azure Synapse-werkruimte.

Implementatiesjablonen

Als u de architecturen wilt implementeren, gebruikt u de volgende sjablonen voor de implementatie van landingszones en gegevenslandingszones:

Gebruik de volgende sjablonen om de andere gegevenstoepassingen en gegevensproducten te implementeren in de relecloud-facturerings- en bewerkingsgegevenslandingszones:

Naam Gegevenslandingszone Type Template
Cloudaccounts Operations Gegevenstoepassing Batchsjabloon voor gegevensproduct
Omzet aanbevelen Operations Gegevensproduct Batchsjabloon voor gegevensproduct
Aanbevolen cloudservice Operations Gegevenstoepassing Sjabloon voor gegevensproductanalyse
Opbrengst per service Billing Gegevensproduct Batchsjabloon voor gegevensproduct

Belangrijk

Relecloud hoeft niet alles in de voorgaande referentie-implementatiesjablonen te implementeren om aan hun behoeften te voldoen. Voor de sjablonen is een bepaald aanpassingsniveau vereist. Verwijder services die u vóór de implementatie niet nodig hebt uit de sjablonen.

Volgende stappen

Ga door naar het Lamna Healthcare-scenario voor veilige analyses op cloudschaal in Azure.

Raadpleeg voor meer informatie de volgende artikelen: