Úvod

Dokončeno

Apache Spark je opensourcová architektura paralelního zpracování pro rozsáhlé zpracování a analýzu dat. Spark se stal velmi populárním ve scénářích zpracování velkých objemů dat a je k dispozici v několika implementacích platformy; včetně Azure HDInsight, Azure Databricks a Azure Synapse Analytics.

V tomto modulu se dozvíte, jak pomocí Sparku ve službě Azure Synapse Analytics ingestovat, zpracovávat a analyzovat data z datového jezera. I když základní techniky a kód popsané v tomto modulu jsou společné pro všechny implementace Sparku, integrované nástroje a schopnost pracovat se Sparkem ve stejném prostředí jako ostatní analytické moduly Runtime Synapse jsou specifické pro Azure Synapse Analytics.

Po dokončení tohoto modulu budete umět:

  • Identifikace základních funkcí a možností Apache Sparku
  • Nakonfigurujte fond Sparku ve službě Azure Synapse Analytics.
  • Spusťte kód pro načtení, analýzu a vizualizaci dat v poznámkovém bloku Sparku.