Introduktion

Slutförd

Apache Spark är ett öppen källkod ramverk för parallell bearbetning för storskalig databearbetning och analys. Spark har blivit mycket populärt i bearbetningsscenarier med stordata och är tillgängligt i flera plattformsimplementeringar. inklusive Azure HDInsight, Azure Databricks och Azure Synapse Analytics.

Den här modulen utforskar hur du kan använda Spark i Azure Synapse Analytics för att mata in, bearbeta och analysera data från en datasjö. De grundläggande teknikerna och koden som beskrivs i den här modulen är gemensamma för alla Spark-implementeringar, men de integrerade verktygen och möjligheten att arbeta med Spark i samma miljö som andra Synapse-analyskörningar är specifika för Azure Synapse Analytics.

När du har slutfört den här modulen kommer du att kunna:

  • Identifiera viktiga funktioner i Apache Spark.
  • Konfigurera en Spark-pool i Azure Synapse Analytics.
  • Kör kod för att läsa in, analysera och visualisera data i en Spark-notebook-fil.