Flera datazoner för analys i molnskala i Azure
Den här referensarkitekturen är avsedd för organisationer som har implementerat en grundläggande version av analys i molnskala och nu är redo att vara värd för nya affärsenheter för att modernisera sin analysverksamhet. Det här mer komplexa scenariot använder flera landningszoner, dataprogram och dataprodukter.
Apache Hive och Hive-logotypen är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.
Problembeskrivning
Relecloud, det fiktiva företaget i det här exemplet, är en privat molnleverantör som erbjuder delad databehandling och lagringsresurser till globala organisationer. Även om Relecloud tillhandahåller beräkningsresurser vill de inte begränsa sin plattform med sina egna interna åtgärder. Därför förlitar de sig på Microsoft Azure för sina interna databehandlingsbehov.
Dataanalytiker i driftgruppen använder telemetridata från molntjänster för att förstå hur deras kunder använder plattformen. Ett separat team av analytiker i faktureringsgruppen studerar faktureringsdata för att få insikter om vilka tjänster som genererar mest intäkter.
Förra kvartalet moderniserade driftsteamet sin analysplattform genom att migrera den till Azure. Ett mål med att implementera analys i molnskala var att maximera potentialen för att skala plattformen och lägga till nya organisationsarbetsbelastningar.
I dag har faktureringsgruppen vuxit ur sin aktuella analyslösning. Mängden fakturor som ska analyseras är för stor för den lokala servern. Teamet bestämmer sig för att följa driftgruppens ledning och modernisera sin plattform för dataanalys i Azure.
Analytiker i faktureringsgruppen har andra kunskaper än analytiker i driftgruppen. Faktureringsanalytikerna vill inte vara begränsade till att använda samma verktyg som åtgärder. Faktureringsgruppen finns i en annan del av organisationen och vill ha flexibiliteten att implementera de principer och procedurer som uppfyller deras behov.
Arkitekturlösning
Relecloud skalar sin analysplattform genom att lägga till en ny landningszon för faktureringsgruppen. Den här landningszonen tillhandahåller en virtuell arbetsyta för faktureringsgruppen för att implementera de analyslösningar som uppfyller deras affärsbehov. Genom att ha en landningszon separat från organisationens andra resurser kan faktureringsgruppen implementera sina egna åtkomstprinciper och ta hänsyn till kostnaderna för sina tjänster.
Följande diagram representerar inte alla Azure-tjänster. Diagrammet är förenklat för att markera huvudbegreppen för att organisera resurser i arkitekturen.
Landningszon för datahantering
Ett viktigt krav för en analysimplementering i molnskala är en landningszon för datahantering. Den här prenumerationen innehåller resurser som delas mellan alla landningszoner, inklusive delade nätverkskomponenter som en brandvägg eller privata DNS-zoner. Landningszonen för datahantering innehåller även resurser för data- och molnstyrning som Azure Policy och Azure Purview.
Relecloud skapade en landningszon för datahantering när de distribuerade dataanalyslösningen för åtgärdsgruppen. När faktureringsgruppen ansluter till plattformen använder de samma landningszon för datahantering för att dela gemensamma resurser med åtgärdsgruppen.
Landningszon för driftdata
Åtgärdsgruppen har följande lösningar i sin datalandningszon.
Program för driftdata
Teamet har skapat ett källjusterat dataprogram som använder Apache Spark-jobb i Azure Databricks för att mata in tjänsttelemetridata och lagra dem i ett Azure Data Lake Storage-konto.
Den här processen kopierar data som de är från källsystemet, men transformerar dem inte. Analytiker kan arbeta med kopierade data på analysplattformen utan att överbelasta källsystemet. I stället för att skapa en dedikerad distribution för det här dataprogrammet använder driftteamet Databricks-arbetsytan i resursgruppen delad inmatning och bearbetning .
Relecloud-kunder kan skapa molnkonton för att hantera resurser och fakturering i sina privata moln. Varje kund kan ha flera konton. Analysteamet skapade ett dataprogram för att importera molnkontodata. Eftersom volymen och frekvensen för data är mycket lägre än för telemetridata behöver teamet inte använda Spark-jobb. I stället skapade de Azure Data Factory-pipelines för att kopiera data.
Azure Database for MySQL fungerar som Hive-metaarkiv och Azure SQL Database är Azure Data Factory-metaarkivet.
Produkter för driftdata
Relecloud-analytiker får värde från data i källjusterade dataprogram genom att skapa nya konsumentjusterade dataprogram. Ett av dessa konsumentanpassade dataprogram är en molntjänstrekommendatormodell . Relecloud-dataexperter använde Azure Machine Learning för att skapa en modell som tittar på de tjänster som ett molnkonto använder och föreslår relaterade tjänster som kan vara användbara. Teamet distribuerar den här modellen till ett AkS-kluster (Azure Kubernetes Service) som körs i landningszonen och hanteras av Azure Machine Learning. Program som körs utanför analys i molnskala kan anropa AKS-slutpunkten för att få rekommendationer.
När faktureringsteamet har skapat sin landningszon skapar driftteamet en ny dataprodukt som deras hanteringsteam begär. Ledningsgruppen vill veta hur mycket intäkter molntjänstrekommendatorns dataprogram genererar. Den nya produkt för recommender-intäkter använder Azure Synapse Analytics för att kombinera data från molntjänstrekommendatorer och Intäkter per tjänst till en ny dataprodukt. Affärsanalytiker kan ansluta till Azure Synapse med Microsoft Power BI för att hitta och rapportera insikter från den nya dataprodukten.
Landningszon för faktureringsdata
Faktureringsgruppen använde ett lokalt system för att driva sin analys, men när datavolymen växte och företaget förlitade sig mer på sitt arbete kunde systemet inte hålla jämna steg. Gruppen moderniserar sin plattform genom att flytta till molnet.
Faktureringsgruppen delar inte en landningszon med driftgruppen, men får en egen landningszon där de har friheten att skapa den plattform som bäst passar deras behov. Den nya landningszonen är ansluten till landningszonen för datahantering och alla andra datalandningszoner med peering för virtuella nätverk. Med den här mekanismen kan data delas på ett säkert sätt via det interna Azure-nätverket.
Program för faktureringsdata
Om du vill landa data från befintliga system i analysplattformen skapar faktureringsgruppen två dataprogram. Det första programmet matar in kunddata, inklusive den fullständiga listan över kunder och alla relaterade data, till exempel kundadresser, platser och säljuppgifter. Det andra programmet importerar företagets fakturahistorik, som innehåller alla faktureringsavgifter till kunder och relaterade betalningsdata.
Båda dessa program drivs av pipelines på den delade Azure Synapse-arbetsytan. Varje program har en dedikerad beräkningspool för att underlätta kostnadsredovisning och säkerhetsgränser. Eftersom programmen kan implementeras fullt ut med delade resurser behöver faktureringsgruppen inte skapa någon distribution för dessa dataprogram.
Faktureringsdataprodukt
Faktureringsanalytikerna skapar en ny dataprodukt med namnet Intäkter per tjänst som analyserar hur mycket intäkter varje molntjänst genererar för Relecloud. Den här produkten förlitar sig på data i fakturornas inmatning. Produkten ansluter också till driftens landningszon och läser tjänstanvändningsdata. Precis som dataprogrammen förlitar sig dataprodukten också på den delade Azure Synapse-arbetsytan.
Distributionsmallar
Om du vill distribuera arkitekturerna använder du följande mallar för datahanteringslandningszon och referensimplementeringsmallar för datalandningszoner:
Använd följande mallar för att distribuera andra dataprogram och dataprodukter i relecloud-fakturerings- och åtgärdsdatalandningszonerna:
Name | Datalandningszon | Typ | Template |
---|---|---|---|
Molnkonton | Operations | Dataprogram | Batchmall för dataprodukt |
Rekommenderare intäkter | Operations | Dataprodukt | Batchmall för dataprodukt |
Molntjänstrekommendator | Operations | Dataprogram | Mall för dataproduktanalys |
Intäkter per tjänst | Fakturering | Dataprodukt | Batchmall för dataprodukt |
Viktigt!
Relecloud behöver inte distribuera allt i föregående referensimplementeringsmallar för att uppfylla deras behov. Mallarna kräver en viss anpassningsnivå. Ta bort tjänster som du inte behöver från mallarna före distributionen.
Nästa steg
Fortsätt till Lamna Healthcare-scenariot för säker analys i molnskala i Azure.
Mer information finns i följande artiklar: