Apache Spark på Azure Databricks

Den här artikeln beskriver hur Apache Spark är relaterat till Azure Databricks och Databricks Data Intelligence Platform.

Apache Spark är kärnan i Azure Databricks-plattformen och är tekniken som driver beräkningskluster och SQL-lager. Azure Databricks är en optimerad plattform för Apache Spark, vilket ger en effektiv och enkel plattform för att köra Apache Spark-arbetsbelastningar.

Vad är relationen mellan Apache Spark och Azure Databricks?

Databricks-företaget grundades av de ursprungliga skaparna av Apache Spark. Som ett öppen källkod programvaruprojekt har Apache Spark engagemang från många toppföretag, inklusive Databricks.

Databricks fortsätter att utveckla och släppa funktioner till Apache Spark. Databricks Runtime innehåller ytterligare optimeringar och egna funktioner som bygger på och utökar Apache Spark, inklusive Photon, en optimerad version av Apache Spark som skrivits om i C++.

Hur fungerar Apache Spark på Azure Databricks?

När du distribuerar ett beräkningskluster eller SQL-lager i Azure Databricks konfigureras och distribueras Apache Spark till virtuella datorer. Du behöver inte konfigurera eller initiera en Spark-kontext eller Spark-session eftersom dessa hanteras åt dig av Azure Databricks.

Kan jag använda Azure Databricks utan att använda Apache Spark?

Azure Databricks stöder en mängd olika arbetsbelastningar och innehåller öppen källkod bibliotek i Databricks Runtime. Databricks SQL använder Apache Spark under huven, men slutanvändarna använder SQL-standardsyntax för att skapa och fråga databasobjekt.

Databricks Runtime for Machine Learning är optimerat för ML-arbetsbelastningar och många dataexperter använder primära öppen källkod bibliotek som TensorFlow och SciKit Learn när de arbetar med Azure Databricks. Du kan använda arbetsflöden för att schemalägga godtyckliga arbetsbelastningar mot beräkningsresurser som distribueras och hanteras av Azure Databricks.

Varför ska du använda Apache Spark i Azure Databricks?

Databricks-plattformen ger en säker samarbetsmiljö för att utveckla och distribuera företagslösningar som skalas med din verksamhet. Databricks-anställda omfattar många av världens mest kunniga Apache Spark-underhållare och användare. Företaget utvecklar och släpper kontinuerligt nya optimeringar för att säkerställa att användarna kan komma åt den snabbaste miljön för att köra Apache Spark.