Använda Azure Data Lake Storage Gen2 i arbetsbelastningar för dataanalys

Slutförd

Azure Data Lake Store Gen2 är en aktiveringsteknik för flera användningsfall för dataanalys. Nu ska vi utforska några vanliga typer av analytiska arbetsbelastningar och identifiera hur Azure Data Lake Storage Gen2 fungerar med andra Azure-tjänster för att stödja dem.

Bearbetning och analys av stordata

Diagram of Azure Data Lake Storage Gen2 being accessed from Azure Synapse Analytics, Azure Databricks, and Azure HDInsight.

Stordatascenarier refererar vanligtvis till analytiska arbetsbelastningar som omfattar enorma mängder data i olika format som måste bearbetas med snabb hastighet – de så kallade "tre virtuella". Azure Data Lake Storage Gen 2 tillhandahåller ett skalbart och säkert distribuerat datalager där stordatatjänster som Azure Synapse Analytics, Azure Databricks och Azure HDInsight kan använda databehandlingsramverk som Apache Spark, Hive och Hadoop. Lagringens och bearbetningsberäkningens distribuerade karaktär gör att uppgifter kan utföras parallellt, vilket resulterar i höga prestanda och skalbarhet även vid bearbetning av stora mängder data.

Datalagerhantering

Diagram of Azure Data Lake Storage Gen2 being used to support a data warehousing solution in Azure Synapse Analytics.

Datalagerhantering har utvecklats under de senaste åren för att integrera stora mängder data som lagras som filer i en datasjö med relationstabeller i ett informationslager. I ett typiskt exempel på en datalagerlösning extraheras data från driftdatalager, till exempel Azure SQL-databas eller Azure Cosmos DB, och omvandlas till strukturer som är lämpligare för analytiska arbetsbelastningar. Data mellanlagras ofta i en datasjö för att underlätta distribuerad bearbetning innan de läses in i ett relationsdatalager. I vissa fall använder informationslagret externa tabeller för att definiera ett relationsmetadatalager över filer i datasjön och skapa en hybridarkitektur för "data lakehouse" eller "lake database". Informationslagret kan sedan stödja analytiska frågor för rapportering och visualisering.

Det finns flera sätt att implementera den här typen av datalagerarkitektur. Diagrammet visar en lösning där Azure Synapse Analytics är värd för pipelines för att utföra ETL-processer (extrahering, transformering och inläsning ) med hjälp av Azure Data Factory-teknik. Dessa processer extraherar data från driftdatakällor och läser in dem i en datasjö som finns i en Azure Data Lake Storage Gen2-container. Data bearbetas och läses sedan in i ett relationsdatalager i en dedikerad SQL-pool i Azure Synapse Analytics, varifrån de kan stödja datavisualisering och rapportering med microsoft Power BI.

Dataanalys i realtid

Diagram of Azure Data Lake Storage Gen2 being used to store the results of real-time data processing in Azure Stream Analytics.

Företag och andra organisationer behöver i allt högre grad samla in och analysera eviga dataströmmar och analysera dem i realtid (eller så nära realtid som möjligt). Dessa dataströmmar kan genereras från anslutna enheter (kallas ofta sakernas Internet- eller IoT-enheter ) eller från data som genereras av användare på sociala medieplattformar eller andra program. Till skillnad från traditionella arbetsbelastningar för batchbearbetning kräver strömmande data en lösning som kan samla in och bearbeta en gränslös dataström när de inträffar.

Strömmande händelser samlas ofta in i en kö för bearbetning. Det finns flera tekniker som du kan använda för att utföra den här uppgiften, inklusive Azure Event Hubs enligt bilden. Härifrån bearbetas data, ofta för att aggregera data över tidsmässiga fönster (till exempel för att räkna antalet meddelanden på sociala medier med en viss tagg var femte minut, eller för att beräkna den genomsnittliga läsningen av en Internetansluten sensor per minut). Med Azure Stream Analytics kan du skapa jobb som frågar efter och aggregerar händelsedata när de tas emot och skriver resultatet i en utdatamottagare. En sådan mottagare är Azure Data Lake Storage Gen2. där insamlade realtidsdata kan analyseras och visualiseras.

Datavetenskap och maskininlärning

Diagram of Azure Data Lake Storage Gen2 being used as a source for Azure Machine Learning.

Data science omfattar statistisk analys av stora mängder data, ofta med hjälp av verktyg som Apache Spark och skriptspråk som Python. Azure Data Lake Storage Gen 2 tillhandahåller ett mycket skalbart molnbaserat datalager för de datavolymer som krävs i datavetenskapsarbetsbelastningar.

Maskininlärning är ett delområde inom datavetenskap som hanterar träningsförutsägande modeller. Modellträning kräver enorma mängder data och möjligheten att bearbeta dessa data effektivt. Azure Machine Learning är en molntjänst där dataexperter kan köra Python-kod i notebook-filer med dynamiskt allokerade distribuerade beräkningsresurser. Beräkningen bearbetar data i Azure Data Lake Storage Gen2-containrar för att träna modeller, som sedan kan distribueras som produktionswebbtjänster för att stödja förutsägande analytiska arbetsbelastningar.