Wprowadzenie

Ukończone

Apache Spark to platforma przetwarzania równoległego typu open source na potrzeby przetwarzania i analizy danych na dużą skalę. Platforma Spark stała się niezwykle popularna w scenariuszach przetwarzania "danych big data" i jest dostępna w wielu implementacjach platformy; w tym usługi Azure HDInsight, Azure Databricks i Azure Synapse Analytics.

W tym module opisano, jak za pomocą platformy Spark w usłudze Azure Synapse Analytics pozyskiwać, przetwarzać i analizować dane z usługi Data Lake. Chociaż podstawowe techniki i kod opisane w tym module są wspólne dla wszystkich implementacji platformy Spark, zintegrowane narzędzia i możliwość pracy z platformą Spark w tym samym środowisku co inne środowiska uruchomieniowe analityczne usługi Synapse są specyficzne dla usługi Azure Synapse Analytics.

Po ukończeniu tego modułu będziesz mieć następujące umiejętności:

  • Identyfikowanie podstawowych funkcji i możliwości platformy Apache Spark.
  • Konfigurowanie puli Spark w usłudze Azure Synapse Analytics.
  • Uruchamianie kodu w celu załadowania, analizowania i wizualizowania danych w notesie platformy Spark.