Lösningsidéer
Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub feedback.
I den här artikeln presenteras en lösning för ett informationslager för företag i Azure som:
- Samlar alla dina data, oavsett skala eller format.
- Ger ett sätt för alla användare att få insikter från dina data via analytiska instrumentpaneler, driftrapporter och avancerad analys.
Apache® och Apache Spark är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.
Arkitektur
Ladda ned en Visio-fil med den här arkitekturen.
Dataflöde
- Azure Synapse Analytics-pipelines sammanför strukturerade, ostrukturerade och halvstrukturerade data, till exempel loggar, filer och media. Pipelines lagrar data i Azure Data Lake Storage.
- Apache Spark-pooler i Azure Synapse Analytics rensar och transformerar Data Lake Storage data.
- Azure Synapse Analytics kombinerar bearbetade data med befintliga strukturerade data och skapar en enhetlig datahubb.
- En dedikerad SQL-pool gör data tillgängliga för driftrapporter och analysinstrumentpaneler som härleder insikter. Azure Analysis Services hanterar rapporter och instrumentpaneler till tusentals slutanvändare.
Komponenter
- Azure Synapse Analytics är en analystjänst för informationslager och stordatasystem. Det här verktyget använder en massivt parallell bearbetningsarkitektur och har djup integrering med Azure-tjänster.
- Azure Synapse Analytics-pipelines är ett sätt för dig att skapa, schemalägga och samordna arbetsflöden, till exempel extrahera, läsa in, transformera (ELT) och extrahera, transformera, läsa in (ETL) arbetsflöden.
- Azure Blob Storage ger mycket skalbar och kostnadseffektiv objektlagring för alla typer av ostrukturerade data – bilder, videor, ljud, dokument med mera.
- Data Lake Storage är en lagringsplats som innehåller en stor mängd data i sitt ursprungliga rådataformat. Data Lake Storage bygger på Blob Storage. Därför erbjuder Data Lake Storage funktionerna för skalbarhet, nivåindelad lagring, hög tillgänglighet och haveriberedskap i Blob Storage.
- Azure Synapse Analytics Spark-pooler tillhandahåller ett ramverk för parallell bearbetning som stöder minnesintern bearbetning för att öka prestandan för analysprogram med stordata.
- Analysis Services är en analysmotor i företagsklass som är ett enkelt sätt för användare att utföra ad hoc-dataanalys. Du kan använda Analysis Services för att styra, testa och leverera affärslösningar i stor skala.
- Power BI är en uppsättning affärsanalysverktyg som ger insikter i hela organisationen. Du kan använda Power BI för att ansluta till hundratals datakällor, förenkla förberedelse av data och köra ad hoc-analys. Du kan också skapa snygga rapporter och publicera dem för din organisation att använda på webben och på mobila enheter.
Scenarioinformation
Ett informationslager för företag samman alla dina data, oavsett källa, format eller skala. Ett informationslager ger dig också ett sätt att köra högpresterande analys på dina data, så att du kan få insikter via analytiska instrumentpaneler, driftrapporter och avancerad analys.
Den här lösningen upprättar ett informationslager som:
- Är en enda sanningskälla för dina data.
- Integrerar relationsdatakällor med andra ostrukturerade datauppsättningar.
- Använder semantisk modellering och kraftfulla visualiseringsverktyg för enklare dataanalys.
För att integrera data i en enhetlig plattform använder den här lösningen Azure Synapse Analytics-pipelines. Dessa pipelines erbjuder ELT- och ETL-funktioner. Mer specifikt kan du använda pipelines för att flytta data i datadrivna arbetsflöden. Pipelines fungerar med olika dataformat och strukturer.
Pipelines lagrar data i Data Lake Storage, som bygger på Blob Storage. Den här lagringstjänsten kan hantera stora mängder ostrukturerade data.
Azure Synapse Analytics Spark-pooler utgör en viktig del av lösningen. Dessa pooler rensar och transformerar data som lagras i Azure. Deras ramverk för parallell bearbetning stöder minnesintern bearbetning för hastighet och effektivitet. Poolerna stöder även automatisk skalning, så att de kan lägga till eller ta bort noder efter behov.
En dedikerad SQL-pool gör bearbetade data tillgängliga för analys med höga prestanda. Den här poolen lagrar data i relationstabeller med kolumnbaserad lagring, ett format som avsevärt minskar kostnaden för datalagring. Det förbättrar också frågeprestandan, så att du kan köra analyser i massiv skala.
Potentiella användningsfall
Du kan använda den här lösningen i scenarier som följande som omfattar stora mängder data:
- IoT-enhetsintegrering
- Kunddataplattformar
- Bearbetning av naturligt språk
- Maskininlärningsalgoritmer
Prissättning
En uppskattning av kostnaden för den här lösningen finns i ett prisexempel i priskalkylatorn.
Nästa steg
- Azure Synapse Analytics-dokumentation
- dokumentation om Azure Synapse Analytics-pipelines
- Introduktion till objektlagring i Azure
- Azure Synapse Analytics Spark-pooler
- Analysis Services-dokumentation
- Power BI-dokumentation