Korzystanie z platformy Spark w usłudze Azure Synapse Analytics
Możesz uruchomić wiele różnych rodzajów aplikacji na platformie Spark, w tym kod w skryptach języka Python lub Scala, kod Java skompilowany jako archiwum Java (JAR) i inne. Platforma Spark jest często używana w dwóch rodzajach obciążenia:
- Zadania przetwarzania wsadowego lub strumieniowego w celu pozyskiwania, czyszczenia i przekształcania danych — często są uruchamiane w ramach zautomatyzowanego potoku.
- Interaktywne sesje analityczne umożliwiające eksplorowanie, analizowanie i wizualizowanie danych.
Uruchamianie kodu platformy Spark w notesach
Usługa Azure Synapse Studio zawiera zintegrowany interfejs notesu do pracy z platformą Spark. Notesy zapewniają intuicyjny sposób łączenia kodu z notatkami markdown, często używanymi przez analityków danych i analityków danych. Wygląd i działanie zintegrowanego środowiska notesu w usłudze Azure Synapse Studio jest podobne do notesów Jupyter — popularnej platformy notesów typu open source.
Uwaga
Zazwyczaj używane interaktywnie notesy mogą być dołączane do zautomatyzowanych potoków i uruchamiane jako skrypt nienadzorowany.
Notesy składają się z co najmniej jednej komórki zawierającej kod lub znaczniki markdown. Komórki kodu w notesach mają pewne funkcje, które mogą pomóc w bardziej wydajnej pracy, w tym:
- Wyróżnianie składni i obsługa błędów.
- Automatyczne uzupełnianie kodu.
- Interaktywne wizualizacje danych.
- Możliwość eksportowania wyników.
Napiwek
Aby dowiedzieć się więcej na temat pracy z notesami w usłudze Azure Synapse Analytics, zobacz artykuł Tworzenie, opracowywanie i obsługa notesów usługi Synapse w usłudze Azure Synapse Analytics w dokumentacji usługi Azure Synapse Analytics .
Uzyskiwanie dostępu do danych z puli platformy Spark usługi Synapse
Platformy Spark w usłudze Azure Synapse Analytics można używać do pracy z danymi z różnych źródeł, w tym:
- Usługa Data Lake oparta na podstawowym koncie magazynu dla obszaru roboczego usługi Azure Synapse Analytics.
- Usługa Data Lake oparta na magazynie zdefiniowanym jako połączona usługa w obszarze roboczym.
- Dedykowana lub bezserwerowa pula SQL w obszarze roboczym.
- Baza danych Azure SQL lub SQL Server (przy użyciu łącznika Spark dla programu SQL Server)
- Analityczna baza danych usługi Azure Cosmos DB zdefiniowana jako połączona usługa i skonfigurowana przy użyciu usługi Azure Synapse Link dla usługi Cosmos DB.
- Baza danych Kusto usługi Azure Data Explorer zdefiniowana jako połączona usługa w obszarze roboczym.
- Zewnętrzny magazyn metadanych Hive zdefiniowany jako połączona usługa w obszarze roboczym.
Jednym z najczęstszych zastosowań platformy Spark jest praca z danymi w usłudze Data Lake, gdzie można odczytywać i zapisywać pliki w wielu powszechnie używanych formatach, w tym tekst rozdzielany, Parquet, Avro i inne.