Förstå stegen för bearbetning av stordata

Datasjöar har en grundläggande roll i en mängd olika stordataarkitekturer. Arkitekturerna kan innehålla skapandet av:

Det finns fyra faser för bearbetning av stordata som är gemensamma för alla arkitekturer:

Inmatning – Inmatningsfasen identifierar den teknik och de processer som används för att hämta källdata. Dessa data kan komma från filer, loggar och andra typer av ostrukturerade data som måste placeras i datasjön. Vilken teknik som används beror på den frekvens som dina data överförs vid. För batchflytt av data kan till exempel pipelines i Azure Synapse Analytics eller Azure Data Factory vara den lämpligaste tekniken att använda. För datainmatning i realtid kan Apache Kafka för HDInsight eller Stream Analytics vara ett lämpligt val.
Lagring – Lagringsfasen identifierar var inmatade data ska placeras. Azure Data Lake Storage Gen2 tillhandahåller en säker och skalbar lagringslösning som är kompatibel med vanliga stordatabehandlingstekniker.
Förberedelse och träning – Förberedelse- och träningsfasen identifierar de tekniker som används för att förbereda data och modellera träning och poängsättning för maskininlärningslösningar. Vanliga tekniker som används i den här fasen är Azure Synapse Analytics, Azure Databricks, Azure HDInsight och Azure Machine Learning.
Modellera och hantera – Slutligen innehåller fasen för att modellera och hantera de tekniker som visar dina data för användarna. Dessa tekniker kan omfatta visualiseringsverktyg som Microsoft Power BI eller analysdatalager som Azure Synapse Analytics. Ofta används en kombination av flera tekniker beroende på affärskraven.

Feedback