Korzystanie z platformy Spark w usłudze Azure Synapse Analytics

Ukończone

Możesz uruchomić wiele różnych rodzajów aplikacji na platformie Spark, w tym kod w skryptach języka Python lub Scala, kod Java skompilowany jako archiwum Java (JAR) i inne. Platforma Spark jest często używana w dwóch rodzajach obciążenia:

  • Zadania przetwarzania wsadowego lub strumieniowego w celu pozyskiwania, czyszczenia i przekształcania danych — często są uruchamiane w ramach zautomatyzowanego potoku.
  • Interaktywne sesje analityczne umożliwiające eksplorowanie, analizowanie i wizualizowanie danych.

Uruchamianie kodu platformy Spark w notesach

Usługa Azure Synapse Studio zawiera zintegrowany interfejs notesu do pracy z platformą Spark. Notesy zapewniają intuicyjny sposób łączenia kodu z notatkami markdown, często używanymi przez analityków danych i analityków danych. Wygląd i działanie zintegrowanego środowiska notesu w usłudze Azure Synapse Studio jest podobne do notesów Jupyter — popularnej platformy notesów typu open source.

A screenshot of a notebook in Azure Synapse Studio.

Uwaga

Zazwyczaj używane interaktywnie notesy mogą być dołączane do zautomatyzowanych potoków i uruchamiane jako skrypt nienadzorowany.

Notesy składają się z co najmniej jednej komórki zawierającej kod lub znaczniki markdown. Komórki kodu w notesach mają pewne funkcje, które mogą pomóc w bardziej wydajnej pracy, w tym:

  • Wyróżnianie składni i obsługa błędów.
  • Automatyczne uzupełnianie kodu.
  • Interaktywne wizualizacje danych.
  • Możliwość eksportowania wyników.

Napiwek

Aby dowiedzieć się więcej na temat pracy z notesami w usłudze Azure Synapse Analytics, zobacz artykuł Tworzenie, opracowywanie i obsługa notesów usługi Synapse w usłudze Azure Synapse Analytics w dokumentacji usługi Azure Synapse Analytics .

Uzyskiwanie dostępu do danych z puli platformy Spark usługi Synapse

Platformy Spark w usłudze Azure Synapse Analytics można używać do pracy z danymi z różnych źródeł, w tym:

  • Usługa Data Lake oparta na podstawowym koncie magazynu dla obszaru roboczego usługi Azure Synapse Analytics.
  • Usługa Data Lake oparta na magazynie zdefiniowanym jako połączona usługa w obszarze roboczym.
  • Dedykowana lub bezserwerowa pula SQL w obszarze roboczym.
  • Baza danych Azure SQL lub SQL Server (przy użyciu łącznika Spark dla programu SQL Server)
  • Analityczna baza danych usługi Azure Cosmos DB zdefiniowana jako połączona usługa i skonfigurowana przy użyciu usługi Azure Synapse Link dla usługi Cosmos DB.
  • Baza danych Kusto usługi Azure Data Explorer zdefiniowana jako połączona usługa w obszarze roboczym.
  • Zewnętrzny magazyn metadanych Hive zdefiniowany jako połączona usługa w obszarze roboczym.

Jednym z najczęstszych zastosowań platformy Spark jest praca z danymi w usłudze Data Lake, gdzie można odczytywać i zapisywać pliki w wielu powszechnie używanych formatach, w tym tekst rozdzielany, Parquet, Avro i inne.