Wprowadzenie

Ukończone

Apache Spark to platforma przetwarzania równoległego typu open source na potrzeby przetwarzania i analizy danych na dużą skalę. Platforma Spark stała się popularna w scenariuszach przetwarzania danych big data i jest dostępna w wielu implementacjach platformy; w tym usługi Azure HDInsight, Azure Databricks, Azure Synapse Analytics i Microsoft Fabric.

W tym module opisano sposób używania platformy Spark w usłudze Microsoft Fabric do pozyskiwania, przetwarzania i analizowania danych w usłudze Lakehouse. Chociaż podstawowe techniki i kod opisany w tym module są wspólne dla wszystkich implementacji platformy Spark, zintegrowane narzędzia i możliwość pracy z platformą Spark w tym samym środowisku co inne usługi danych w usłudze Microsoft Fabric ułatwiają włączenie przetwarzania danych opartych na platformie Spark do ogólnego rozwiązania do analizy danych.