Platforma Apache Spark w usłudze Azure Databricks

W tym artykule opisano, jak platforma Apache Spark jest powiązana z usługą Azure Databricks i platformą analizy danych usługi Databricks.

Platforma Apache Spark jest sercem platformy Azure Databricks i jest technologią umożliwiającą klastry obliczeniowe i magazyny SQL. Azure Databricks to zoptymalizowana platforma dla platformy Apache Spark, która zapewnia wydajną i prostą platformę do uruchamiania obciążeń platformy Apache Spark.

Jaka jest relacja platformy Apache Spark z usługą Azure Databricks?

Firma Databricks została założona przez oryginalnych twórców platformy Apache Spark. Jako projekt oprogramowania typu open source platforma Apache Spark ma osoby zatwierdzane z wielu najlepszych firm, w tym usługi Databricks.

Usługa Databricks kontynuuje opracowywanie i wydawanie funkcji na platformie Apache Spark. Środowisko Databricks Runtime obejmuje dodatkowe optymalizacje i zastrzeżone funkcje, które tworzą i rozszerzają platformę Apache Spark, w tym Photon, zoptymalizowaną wersję platformy Apache Spark przepisaną w języku C++.

Jak działa platforma Apache Spark w usłudze Azure Databricks?

Podczas wdrażania klastra obliczeniowego lub usługi SQL Warehouse w usłudze Azure Databricks platforma Apache Spark jest konfigurowana i wdrażana na maszynach wirtualnych. Nie musisz konfigurować ani inicjować kontekstu platformy Spark ani sesji platformy Spark, ponieważ są one zarządzane przez usługę Azure Databricks.

Czy mogę używać usługi Azure Databricks bez korzystania z platformy Apache Spark?

Usługa Azure Databricks obsługuje różne obciążenia i obejmuje biblioteki open source w środowisku Databricks Runtime. Usługa Databricks SQL używa platformy Apache Spark pod maską, ale użytkownicy końcowi używają standardowej składni SQL do tworzenia obiektów bazy danych i wykonywania względem nich zapytań.

Środowisko Databricks Runtime dla Edukacja maszynowych jest zoptymalizowane pod kątem obciążeń uczenia maszynowego, a wielu analityków danych korzysta z podstawowych bibliotek typu open source, takich jak TensorFlow i SciKit Learn podczas pracy nad usługą Azure Databricks. Przepływy pracy umożliwiają planowanie dowolnych obciążeń względem zasobów obliczeniowych wdrożonych i zarządzanych przez usługę Azure Databricks.

Dlaczego warto używać platformy Apache Spark w usłudze Azure Databricks?

Platforma Databricks zapewnia bezpieczne, wspólne środowisko do tworzenia i wdrażania rozwiązań dla przedsiębiorstw, które są skalowane wraz z twoją firmą. Pracownicy usługi Databricks obejmują wielu najbardziej znających się na świecie opiekunów i użytkowników platformy Apache Spark. Firma stale opracowuje i publikuje nowe optymalizacje, aby zapewnić użytkownikom dostęp do najszybszego środowiska do uruchamiania platformy Apache Spark.

Jak dowiedzieć się więcej na temat korzystania z platformy Apache Spark w usłudze Azure Databricks?

Aby rozpocząć pracę z platformą Apache Spark w usłudze Azure Databricks, zapoznaj się z tym tematem! Samouczek dotyczący ramek danych platformy Apache Spark zawiera omówienie ładowania i przekształcania danych w języku Python, R lub Scala. Zobacz Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark.

Dodatkowe informacje na temat obsługi języków Python, R i Scala na platformie Spark znajdują się w sekcji PySpark w usłudze Azure Databricks, przeglądu platformy SparkR i usługi Azure Databricks dla deweloperów języka Scala, a także w temacie Dokumentacja interfejsów API platformy Apache Spark.