Comprendere le fasi per l'elaborazione dei Big Data

Completato

Azure Data Lake Storage Gen2 svolge un ruolo fondamentale in una vasta gamma di architetture per Big Data. Queste architetture possono prevedere la creazione di:

  • Data warehouse aziendale.
  • Analisi avanzata dei Big Data.
  • Una soluzione di analisi in tempo reale.

Sono quattro le fasi per l'elaborazione di soluzioni per Big Data comuni a tutte le architetture:

  • Inserimento: la fase di inserimento identifica la tecnologia e i processi usati per acquisire i dati di origine. Questi dati possono provenire da file, log e altri tipi di dati non strutturati da inserire nel Data Lake Store. La tecnologia usata varia in base alla frequenza di trasferimento dei dati. Ad esempio, per lo spostamento di batch di dati la tecnologia ottimale può essere pipeline di Azure Synapse Analytics o Azure Data Factory. Per l'inserimento di dati in tempo reale, una tecnologia appropriata può essere Apache Kafka per HDInsight o Analisi di flusso di Azure.
  • Archiviazione: questa fase identifica dove devono essere posizionati i dati inseriti. Azure Data Lake Storage Gen2 offre una soluzione di archiviazione sicura e scalabile compatibile con le tecnologie di elaborazione dei Big Data di uso comune.
  • Preparazione e training: questo passaggio identifica le tecnologie usate per eseguire la preparazione dei dati, il training del modello e l'assegnazione del punteggio al modello stesso per le soluzioni di data science. Le tecnologie comunemente usate in questa fase sono Azure Synapse Analytics, Azure Databricks, Azure HDInsight o servizi Azure Machine Learning.
  • Modello e offerta: questa fase riguarda infine le tecnologie di presentazione dei dati agli utenti. Queste tecnologie possono includere strumenti di visualizzazione come Microsoft Power BI o archivi dati analitici, ad esempio Azure Synapse Analytics. Spesso viene usata una combinazione di queste tecnologie, a seconda dei requisiti aziendali.