Introduzione

Completato

Apache Spark è un framework di elaborazione parallela open source per l'elaborazione e l'analisi dei dati su larga scala. Spark è diventato estremamente popolare negli scenari di elaborazione "Big Data" ed è disponibile in più implementazioni della piattaforma, tra cui Azure HDInsight, Azure Databricks e Azure Synapse Analytics.

Questo modulo illustra come usare Spark in Azure Synapse Analytics per inserire, elaborare e analizzare i dati da un data lake. Anche se le tecniche di base e il codice descritti in questo modulo siano comuni a tutte le implementazioni di Spark, gli strumenti integrati e la capacità di lavorare con Spark nello stesso ambiente di altri runtime di analisi di Synapse sono specifici di Azure Synapse Analytics.

Obiettivi del modulo:

  • Identificare le funzionalità e le capacità di base di Apache Spark.
  • Creare un pool di Spark in Azure Synapse Analytics.
  • Eseguire il codice per caricare, analizzare e visualizzare i dati in un notebook Spark.