Udostępnij za pośrednictwem


Platforma Apache Spark w usłudze Azure Databricks

Platforma Apache Spark jest sercem platformy analizy danych usługi Azure Databricks i jest technologią obsługujące klastry obliczeniowe i magazyny SQL. Azure Databricks to zoptymalizowana platforma dla platformy Apache Spark, która zapewnia wydajną i prostą platformę do uruchamiania obciążeń platformy Apache Spark.

Jaka jest relacja platformy Apache Spark z usługą Azure Databricks?

Firma Databricks została założona przez oryginalnych twórców platformy Apache Spark. Jako projekt oprogramowania typu open source, Apache Spark ma kontrybutorów z wielu czołowych firm, w tym Databricks.

Usługa Databricks kontynuuje opracowywanie i wydawanie funkcji na platformie Apache Spark. Środowisko Databricks Runtime, które obsługuje usługę Azure Databricks, obejmuje dodatkowe optymalizacje i zastrzeżone funkcje, które tworzą i rozszerzają platformę Apache Spark, w tym photon, zoptymalizowaną warstwę wykonywania, która może być używana w połączeniu z platformą Spark. Usługa Databricks Photon jest przeznaczona do pracy z obciążeniami platformy Apache Spark i poprawiania ich wydajności. Aplikacja Photon zwiększa wydajność platformy Spark przez wektoryzowanie zapytań i innych operacji, co pozwala na szybsze wykonywanie operacji interfejsu API SQL i ramki danych.

W jaki sposób usługa Databricks jest zoptymalizowana pod kątem platformy Apache Spark?

Na platformie Apache Spark wszystkie operacje są definiowane jako przekształcenia lub akcje.

  • Przekształcenia: dodaj logikę przetwarzania do planu. Przykłady obejmują odczytywanie danych, łączenia, agregacje i rzutowanie typów.
  • Akcje: wyzwalanie logiki przetwarzania w celu oceny i wyprowadzania wyniku. Przykłady obejmują pisanie, wyświetlanie lub podgląd wyników, ręczne buforowanie lub pobieranie liczby wierszy.

Platforma Apache Spark używa modelu leniwego wykonywania, co oznacza, że żadna logika zdefiniowana przez kolekcję operacji nie jest oceniana do momentu podjęcia akcji. Aby uniknąć niepotrzebnej oceny logiki, użyj tylko akcji, aby zapisać wyniki z powrotem do tabeli docelowej.

Ponieważ akcje stanowią wąskie gardło w przetwarzaniu przy optymalizacji logiki, usługa Azure Databricks dodała wiele optymalizacji do tych już obecnych na platformie Apache Spark, aby zapewnić optymalne działanie logiki. Te optymalizacje uwzględniają wszystkie przekształcenia wyzwalane przez daną akcję jednocześnie i znalezienie optymalnego planu na podstawie fizycznego układu danych. Ręczne buforowanie danych lub zwracanie wyników podglądu w pipeline'ach produkcyjnych może przerwać te optymalizacje i prowadzić do zwiększenia kosztów i opóźnień.

Jak działa platforma Apache Spark w usłudze Azure Databricks?

Podczas wdrażania klastra obliczeniowego lub usługi SQL Warehouse w usłudze Azure Databricks platforma Apache Spark jest konfigurowana i wdrażana na maszynach wirtualnych. Nie musisz konfigurować ani inicjować kontekstu platformy Spark ani sesji platformy Spark, ponieważ są one zarządzane przez usługę Azure Databricks.

Czy mogę używać usługi Azure Databricks bez korzystania z platformy Apache Spark?

Tak. Usługa Azure Databricks obsługuje różne obciążenia i obejmuje biblioteki open source w środowisku Databricks Runtime. Usługa Databricks SQL używa aplikacji Photon pod maską, ale użytkownicy końcowi mogą używać składni Spark SQL do tworzenia obiektów bazy danych i wykonywania zapytań względem nich za pomocą aplikacji Photon.

Środowisko Databricks Runtime for Machine Learning jest zoptymalizowane pod kątem obciążeń uczenia maszynowego, a wielu analityków danych korzysta z podstawowych bibliotek typu open source, takich jak TensorFlow i SciKit Learn podczas pracy z usługą Azure Databricks. Za pomocą zadań można zaplanować dowolne obciążenia względem zasobów obliczeniowych wdrożonych i zarządzanych przez usługę Azure Databricks.

Dlaczego warto używać platformy Apache Spark w usłudze Azure Databricks?

Platforma Databricks zapewnia bezpieczne, wspólne środowisko do tworzenia i wdrażania rozwiązań dla przedsiębiorstw, które są skalowane wraz z twoją firmą. Pracownicy firmy Databricks to jedni z najbardziej znających się na Apache Spark na świecie administratorzy i użytkownicy. Firma stale opracowuje i publikuje nowe optymalizacje, aby zapewnić użytkownikom dostęp do najszybszego środowiska do uruchamiania platformy Apache Spark.

Jak dowiedzieć się więcej na temat korzystania z platformy Apache Spark w usłudze Azure Databricks?

Aby rozpocząć pracę z Apache Spark na platformie Azure Databricks, zanurz się od razu! Samouczek dotyczący ramek danych platformy Apache Spark zawiera omówienie ładowania i przekształcania danych w języku Python, R lub Scala. Zobacz Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark.

Aby uzyskać dodatkowe informacje na temat obsługi języków Python, R i Scala na platformie Spark, zobacz PySpark w usłudze Azure Databricks, sparklyr i Azure Databricks dla deweloperów języka Scala, a także w temacie Dokumentacja interfejsów API platformy Apache Spark.