Použití Sparku ve službě Azure Synapse Analytics

Dokončeno

Ve Sparku můžete spustit mnoho různých druhů aplikací, včetně kódu ve skriptech Pythonu nebo Scala, kódu Java zkompilovaného jako Java Archive (JAR) a dalších. Spark se běžně používá ve dvou typech úloh:

  • Úlohy dávkového zpracování nebo zpracování datových proudů za účelem ingestování, čištění a transformace dat – často běží jako součást automatizovaného kanálu.
  • Interaktivní analytické relace pro zkoumání, analýzu a vizualizaci dat

Spouštění kódu Sparku v poznámkových blocích

Azure Synapse Studio obsahuje integrované rozhraní poznámkového bloku pro práci se Sparkem. Poznámkové bloky poskytují intuitivní způsob kombinování kódu s poznámkami Markdownu, které běžně používají datoví vědci a datoví analytici. Vzhled integrovaného prostředí poznámkového bloku v nástroji Azure Synapse Studio je podobný prostředí jupyter notebooků – oblíbené opensourcové platformě poznámkových bloků.

A screenshot of a notebook in Azure Synapse Studio.

Poznámka:

I když se poznámkové bloky obvykle používají interaktivně, dají se zahrnout do automatizovaných kanálů a spouštět jako bezobslužný skript.

Poznámkové bloky se skládají z jedné nebo více buněk, z nichž každá obsahuje kód nebo markdown. Buňky kódu v poznámkových blocích mají některé funkce, které vám můžou pomoct zvýšit produktivitu, včetně těchto:

  • Podpora zvýrazňování syntaxe a chyb
  • Automatické dokončování kódu
  • Interaktivní vizualizace dat
  • Možnost exportu výsledků

Tip

Další informace o práci s poznámkovými bloky v Azure Synapse Analytics najdete v článku Vytváření, vývoj a údržba poznámkových bloků Synapse v Azure Synapse Analytics v dokumentaci k Azure Synapse Analytics.

Přístup k datům z fondu Synapse Spark

Spark ve službě Azure Synapse Analytics můžete použít k práci s daty z různých zdrojů, mezi které patří:

  • Datové jezero založené na primárním účtu úložiště pro pracovní prostor Azure Synapse Analytics.
  • Datové jezero založené na úložišti definovaném jako propojená služba v pracovním prostoru.
  • Vyhrazený nebo bezserverový fond SQL v pracovním prostoru.
  • Databáze Azure SQL nebo SQL Serveru (pomocí konektoru Spark pro SQL Server)
  • Analytická databáze Azure Cosmos DB definovaná jako propojená služba a nakonfigurovaná pomocí Azure Synapse Linku pro Cosmos DB.
  • Databáze Kusto Azure Data Exploreru definovaná jako propojená služba v pracovním prostoru.
  • Externí metastor Hive definovaný jako propojená služba v pracovním prostoru.

Jedním z nejběžnějších použití Sparku je práce s daty v datovém jezeře, kde můžete číst a zapisovat soubory v několika běžně používaných formátech, včetně textu s oddělovači, Parquet, Avro a dalších.