Korzystanie z platformy Spark w usłudze Azure Synapse Analytics

3 min

Możesz uruchomić wiele różnych rodzajów aplikacji na platformie Spark, w tym kod w skryptach języka Python lub Scala, kod Java skompilowany jako archiwum Java (JAR) i inne. Platforma Spark jest często używana w dwóch rodzajach obciążenia:

Zadania przetwarzania wsadowego lub strumieniowego w celu pozyskiwania, czyszczenia i przekształcania danych — często są uruchamiane w ramach zautomatyzowanego potoku.
Interaktywne sesje analityczne umożliwiające eksplorowanie, analizowanie i wizualizowanie danych.

Uruchamianie kodu platformy Spark w notesach

Usługa Azure Synapse Studio zawiera zintegrowany interfejs notesu do pracy z platformą Spark. Notesy zapewniają intuicyjny sposób łączenia kodu z notatkami markdown, często używanymi przez analityków danych i analityków danych. Wygląd i działanie zintegrowanego środowiska notesu w usłudze Azure Synapse Studio jest podobne do notesów Jupyter — popularnej platformy notesów typu open source.

A screenshot of a notebook in Azure Synapse Studio.

Uwaga

Zazwyczaj używane interaktywnie notesy mogą być dołączane do zautomatyzowanych potoków i uruchamiane jako skrypt nienadzorowany.

Notesy składają się z co najmniej jednej komórki zawierającej kod lub znaczniki markdown. Komórki kodu w notesach mają pewne funkcje, które mogą pomóc w bardziej wydajnej pracy, w tym:

Wyróżnianie składni i obsługa błędów.
Automatyczne uzupełnianie kodu.
Interaktywne wizualizacje danych.
Możliwość eksportowania wyników.

Napiwek

Aby dowiedzieć się więcej na temat pracy z notesami w usłudze Azure Synapse Analytics, zobacz artykuł Tworzenie, opracowywanie i obsługa notesów usługi Synapse w usłudze Azure Synapse Analytics w dokumentacji usługi Azure Synapse Analytics .

Uzyskiwanie dostępu do danych z puli platformy Spark usługi Synapse

Platformy Spark w usłudze Azure Synapse Analytics można używać do pracy z danymi z różnych źródeł, w tym:

Usługa Data Lake oparta na podstawowym koncie magazynu dla obszaru roboczego usługi Azure Synapse Analytics.
Usługa Data Lake oparta na magazynie zdefiniowanym jako połączona usługa w obszarze roboczym.
Dedykowana lub bezserwerowa pula SQL w obszarze roboczym.
Baza danych Azure SQL lub SQL Server (przy użyciu łącznika Spark dla programu SQL Server)
Analityczna baza danych usługi Azure Cosmos DB zdefiniowana jako połączona usługa i skonfigurowana przy użyciu usługi Azure Synapse Link dla usługi Cosmos DB.
Baza danych Kusto usługi Azure Data Explorer zdefiniowana jako połączona usługa w obszarze roboczym.
Zewnętrzny magazyn metadanych Hive zdefiniowany jako połączona usługa w obszarze roboczym.

Jednym z najczęstszych zastosowań platformy Spark jest praca z danymi w usłudze Data Lake, gdzie można odczytywać i zapisywać pliki w wielu powszechnie używanych formatach, w tym tekst rozdzielany, Parquet, Avro i inne.

Korzystanie z platformy Spark w usłudze Azure Synapse Analytics

Uruchamianie kodu platformy Spark w notesach

Uzyskiwanie dostępu do danych z puli platformy Spark usługi Synapse

Opinia