sparklyr
Az Azure Databricks támogatja a sparklyrt a jegyzetfüzetekben, a feladatokban és az RStudio Desktopban. Ez a cikk bemutatja, hogyan használható a Sparklyr, és hogyan futtathat példaszkripteket. További információért tekintse meg az Apache Spark R-felületét.
Követelmények
Az Azure Databricks minden Databricks Runtime kiadással elosztja a Sparklyr legújabb stabil verzióját. A sparklyr az Azure Databricks R-jegyzetfüzetekben vagy az Azure Databricksben üzemeltetett RStudio-kiszolgálón is használható a Sparklyr telepített verziójának importálásával.
Az RStudio Desktopban a Databricks Csatlakozás lehetővé teszi a Sparklyr csatlakoztatását a helyi gépről az Azure Databricks-fürtökhöz, és Apache Spark-kódot futtathat. Lásd: A Sparklyr és az RStudio Desktop használata a Databricks Csatlakozás.
Csatlakozás sparklyr az Azure Databricks-fürtökre
A sparklyr-kapcsolat létrehozásához használhatja "databricks"
a kapcsolati metódust a következőben spark_connect()
: .
Nincs szükség további paraméterekre spark_connect()
, és nincs szükség hívásra spark_install()
sem, mert a Spark már telepítve van egy Azure Databricks-fürtön.
# Calling spark_connect() requires the sparklyr package to be loaded first.
library(sparklyr)
# Create a sparklyr connection.
sc <- spark_connect(method = "databricks")
Folyamatjelző sávok és Spark felhasználói felület sparklyrrel
Ha a sparklyr kapcsolati objektumot egy, a fenti példában ismertetett módon elnevezett sc
változóhoz rendeli, a Spark-feladatokat aktiváló parancsok után a Spark folyamatjelző sávjai jelennek meg a jegyzetfüzetben.
Emellett a folyamatjelző sáv melletti hivatkozásra kattintva megtekintheti az adott Spark-feladathoz társított Spark felhasználói felületet.
Sparklyr használata
A Sparklyr telepítése és a kapcsolat létrehozása után az összes többi Sparklyr API a szokásos módon működik. Példákért tekintse meg a példajegyzetfüzetet .
a sparklyrt általában más rendezett csomagokkal, például a dplyrrel együtt használják. Ezeknek a csomagoknak a többsége előre telepítve van a Databricksben az Ön kényelme érdekében. Egyszerűen importálhatja őket, és elkezdheti használni az API-t.
A Sparklyr és a SparkR együttes használata
A SparkR és a Sparklyr együtt használható egyetlen jegyzetfüzetben vagy feladatban. Importálhatja a SparkR-t a Sparklyrrel együtt, és használhatja annak funkcióit. Az Azure Databricks-jegyzetfüzetekben a SparkR-kapcsolat előre konfigurálva van.
A SparkR egyes függvényei több függvényt is maszkolnak a dplyrben:
> library(SparkR)
The following objects are masked from ‘package:dplyr’:
arrange, between, coalesce, collect, contains, count, cume_dist,
dense_rank, desc, distinct, explain, filter, first, group_by,
intersect, lag, last, lead, mutate, n, n_distinct, ntile,
percent_rank, rename, row_number, sample_frac, select, sql,
summarize, union
Ha a Dplyr importálása után importálja a SparkR-t, a dplyrben található függvényekre hivatkozhat a teljes névvel, dplyr::arrange()
például.
Hasonlóképpen, ha a SparkR után importálja a dplyrt, a SparkR funkcióit a dplyr maszkolja.
Azt is megteheti, hogy szelektíven leválasztja a két csomag egyikét, amíg nincs rá szüksége.
detach("package:dplyr")
Lásd még : SparkR és sparklyr összehasonlítása.
Sparklyr használata a spark-submit feladatokban
Az Azure Databricksben sparklyrt használó szkripteket spark-submit feladatokként, kisebb kódmódosításokkal futtathat. A fenti utasítások némelyike nem vonatkozik a Sparklyr azure Databricks spark-submit feladatokban való használatára. Különösen meg kell adnia a Spark fő URL-címét.spark_connect
Példa:
library(sparklyr)
sc <- spark_connect(method = "databricks", spark_home = "<spark-home-path>")
...
Nem támogatott szolgáltatások
Az Azure Databricks nem támogatja az olyan sparklyr metódusokat, mint például spark_web()
spark_log()
a helyi böngészőt. Mivel azonban a Spark felhasználói felülete beépített az Azure Databricksben, egyszerűen megvizsgálhatja a Spark-feladatokat és a naplókat.
Lásd: Számítási illesztőprogramok és feldolgozói naplók.
Példajegyzetfüzet: Sparklyr-bemutató
Sparklyr-jegyzetfüzet
További példákért lásd : DataFrames és táblák használata az R-ben.