Einführung

Abgeschlossen

Apache Spark ist ein Open Source-Framework für die parallele Verarbeitung großer Datenmengen und Analysen. Spark ist bei der Verarbeitung von „Big Data“ sehr beliebt geworden und ist in mehreren Plattformimplementierungen verfügbar, darunter Azure HDInsight, Azure Databricks und Azure Synapse Analytics.

In diesem Modul erfahren Sie, wie Sie Spark in Azure Synapse Analytics verwenden können, um Daten aus einem Data Lake zu erfassen, zu verarbeiten und zu analysieren. Während die in diesem Modul beschriebenen Kerntechniken und der Code für alle Spark-Implementierungen gelten, sind die integrierten Tools und die Möglichkeit, mit Spark in derselben Umgebung wie andere analytische Synapse-Runtimes von Azure zu arbeiten, spezifisch für Azure Synapse Analytics.

Nach Abschluss dieses Moduls können Sie folgende Aufgaben durchführen:

  • Identifizieren Sie Kernfeatures und Funktionen von Apache Spark.
  • Erstellen Sie einen Spark-Pool in Azure Synapse Analytics.
  • Führen Sie Code aus, um Daten in einem Spark-Notebook zu laden, zu analysieren und zu visualisieren.