Porovnání SparkR a sparklyr
Uživatelé R si můžou vybrat mezi dvěma rozhraními API pro Apache Spark: SparkR a sparklyr. Tento článek porovnává tato rozhraní API. Databricks doporučuje zvolit jedno z těchto rozhraní API pro vývoj aplikace Spark v jazyce R. Kombinování kódu z obou těchto rozhraní API do jednoho skriptu nebo poznámkového bloku Nebo úlohy Azure Databricks může ztížit čtení a údržbu kódu.
Původy rozhraní API
SparkR je vytvořený komunitou Sparku a vývojáři z Databricks. Z tohoto důvodu SparkR úzce sleduje třídy Spark Scala a rozhraní DATAFrame API.
sparklyr začal s RStudio a od té doby byl darován do Linux Foundation. sparklyr je úzce integrován do tidyverse ve svém programovacím stylu i prostřednictvím interoperability rozhraní API s dplyr.
SparkR a sparklyr jsou vysoce schopné pracovat s velkými objemy dat v R. V posledních několika letech se jejich sady funkcí blíží paritě.
Rozdíly rozhraní API
Následující příklad kódu ukazuje, jak pomocí SparkR a sparklyr z poznámkového bloku Azure Databricks načíst soubor CSV z ukázkových datových sad do Sparku.
# #############################################################################
# SparkR usage
# Note: To load SparkR into a Databricks notebook, run the following:
# library(SparkR)
# You can then remove "SparkR::" from the following function call.
# #############################################################################
# Use SparkR to read the airlines dataset from 2008.
airlinesDF <- SparkR::read.df(path = "/databricks-datasets/asa/airlines/2008.csv",
source = "csv",
inferSchema = "true",
header = "true")
# Print the loaded dataset's class name.
cat("Class of SparkR object: ", class(airlinesDF), "\n")
# Output:
#
# Class of SparkR object: SparkDataFrame
# #############################################################################
# sparklyr usage
# Note: To install, load, and connect with sparklyr in a Databricks notebook,
# run the following:
# install.packages("sparklyr")
# library(sparklyr)
# sc <- sparklyr::spark_connect(method = "databricks")
# If you run "library(sparklyr)", you can then remove "sparklyr::" from the
# preceding "spark_connect" and from the following function call.
# #############################################################################
# Use sparklyr to read the airlines dataset from 2007.
airlines_sdf <- sparklyr::spark_read_csv(sc = sc,
name = "airlines",
path = "/databricks-datasets/asa/airlines/2007.csv")
# Print the loaded dataset's class name.
cat("Class of sparklyr object: ", class(airlines_sdf))
# Output:
#
# Class of sparklyr object: tbl_spark tbl_sql tbl_lazy tbl
Pokud se ale pokusíte spustit funkci sparklyr na objektu SparkDataFrame
ze SparkR nebo pokud se pokusíte spustit funkci SparkR na tbl_spark
objektu z sparklyr, nebude fungovat, jak je znázorněno v následujícím příkladu kódu.
# Try to call a sparklyr function on a SparkR SparkDataFrame object. It will not work.
sparklyr::sdf_pivot(airlinesDF, DepDelay ~ UniqueCarrier)
# Output:
#
# Error : Unable to retrieve a Spark DataFrame from object of class SparkDataFrame
## Now try to call s Spark R function on a sparklyr tbl_spark object. It also will not work.
SparkR::arrange(airlines_sdf, "DepDelay")
# Output:
#
# Error in (function (classes, fdef, mtable) :
# unable to find an inherited method for function ‘arrange’ for signature ‘"tbl_spark", "character"’
Je to proto, že sparklyr překládá funkce dplyr, jako arrange
je plán dotazu SQL, který používá SparkSQL. Nejedná se o případ SparkR, který obsahuje funkce pro tabulky SparkSQL a datové rámce Spark. Toto chování je důvodem, proč Databricks nedoporučuje kombinovat rozhraní SparkR a sparklyr API ve stejném skriptu, poznámkovém bloku nebo úloze.
Interoperabilita rozhraní API
Ve výjimečných případech, kdy se nemůžete vyhnout kombinování rozhraní SparkR a sparklyr API, můžete SparkSQL použít jako druh mostu. Například v prvním příkladu tohoto článku načetl sparklyr datovou sadu leteckých společností z roku 2007 do tabulky s názvem airlines
. K dotazování na tuto tabulku můžete použít funkci SparkR sql
, například:
top10delaysDF <- SparkR::sql("SELECT
UniqueCarrier,
DepDelay,
Origin
FROM
airlines
WHERE
DepDelay NOT LIKE 'NA'
ORDER BY DepDelay
DESC LIMIT 10")
# Print the class name of the query result.
cat("Class of top10delaysDF: ", class(top10delaysDF), "\n\n")
# Show the query result.
cat("Top 10 airline delays for 2007:\n\n")
head(top10delaysDF, 10)
# Output:
#
# Class of top10delaysDF: SparkDataFrame
#
# Top 10 airline delays for 2007:
#
# UniqueCarrier DepDelay Origin
# 1 AA 999 RNO
# 2 NW 999 EWR
# 3 AA 999 PHL
# 4 MQ 998 RST
# 5 9E 997 SWF
# 6 AA 996 DFW
# 7 NW 996 DEN
# 8 MQ 995 IND
# 9 MQ 994 SJT
# 10 AA 993 MSY
Další příklady najdete v tématu Práce s datovými rámci a tabulkami v jazyce R.