Megosztás a következőn keresztül:


sparklyr

Az Azure Databricks támogatja a sparklyrt a jegyzetfüzetekben, a feladatokban és az RStudio Desktopban. Ez a cikk bemutatja, hogyan használható a Sparklyr, és hogyan futtathat példaszkripteket. További információért tekintse meg az Apache Spark R-felületét.

Követelmények

Az Azure Databricks minden Databricks Runtime kiadással elosztja a Sparklyr legújabb stabil verzióját. A sparklyr az Azure Databricks R-jegyzetfüzetekben vagy az Azure Databricksben üzemeltetett RStudio-kiszolgálón is használható a Sparklyr telepített verziójának importálásával.

Az RStudio Desktopban a Databricks Csatlakozás lehetővé teszi a Sparklyr csatlakoztatását a helyi gépről az Azure Databricks-fürtökhöz, és Apache Spark-kódot futtathat. Lásd: A Sparklyr és az RStudio Desktop használata a Databricks Csatlakozás.

Csatlakozás sparklyr az Azure Databricks-fürtökre

A sparklyr-kapcsolat létrehozásához használhatja "databricks" a kapcsolati metódust a következőben spark_connect(): . Nincs szükség további paraméterekre spark_connect() , és nincs szükség hívásra spark_install() sem, mert a Spark már telepítve van egy Azure Databricks-fürtön.

# Calling spark_connect() requires the sparklyr package to be loaded first.
library(sparklyr)

# Create a sparklyr connection.
sc <- spark_connect(method = "databricks")

Folyamatjelző sávok és Spark felhasználói felület sparklyrrel

Ha a sparklyr kapcsolati objektumot egy, a fenti példában ismertetett módon elnevezett sc változóhoz rendeli, a Spark-feladatokat aktiváló parancsok után a Spark folyamatjelző sávjai jelennek meg a jegyzetfüzetben. Emellett a folyamatjelző sáv melletti hivatkozásra kattintva megtekintheti az adott Spark-feladathoz társított Spark felhasználói felületet.

Sparklyr-folyamat

Sparklyr használata

A Sparklyr telepítése és a kapcsolat létrehozása után az összes többi Sparklyr API a szokásos módon működik. Példákért tekintse meg a példajegyzetfüzetet .

a sparklyrt általában más rendezett csomagokkal, például a dplyrrel együtt használják. Ezeknek a csomagoknak a többsége előre telepítve van a Databricksben az Ön kényelme érdekében. Egyszerűen importálhatja őket, és elkezdheti használni az API-t.

A Sparklyr és a SparkR együttes használata

A SparkR és a Sparklyr együtt használható egyetlen jegyzetfüzetben vagy feladatban. Importálhatja a SparkR-t a Sparklyrrel együtt, és használhatja annak funkcióit. Az Azure Databricks-jegyzetfüzetekben a SparkR-kapcsolat előre konfigurálva van.

A SparkR egyes függvényei több függvényt is maszkolnak a dplyrben:

> library(SparkR)
The following objects are masked from ‘package:dplyr’:

arrange, between, coalesce, collect, contains, count, cume_dist,
dense_rank, desc, distinct, explain, filter, first, group_by,
intersect, lag, last, lead, mutate, n, n_distinct, ntile,
percent_rank, rename, row_number, sample_frac, select, sql,
summarize, union

Ha a Dplyr importálása után importálja a SparkR-t, a dplyrben található függvényekre hivatkozhat a teljes névvel, dplyr::arrange()például. Hasonlóképpen, ha a SparkR után importálja a dplyrt, a SparkR funkcióit a dplyr maszkolja.

Azt is megteheti, hogy szelektíven leválasztja a két csomag egyikét, amíg nincs rá szüksége.

detach("package:dplyr")

Lásd még : SparkR és sparklyr összehasonlítása.

Sparklyr használata a spark-submit feladatokban

Az Azure Databricksben sparklyrt használó szkripteket spark-submit feladatokként, kisebb kódmódosításokkal futtathat. A fenti utasítások némelyike nem vonatkozik a Sparklyr azure Databricks spark-submit feladatokban való használatára. Különösen meg kell adnia a Spark fő URL-címét.spark_connect Példa:

library(sparklyr)

sc <- spark_connect(method = "databricks", spark_home = "<spark-home-path>")
...

Nem támogatott szolgáltatások

Az Azure Databricks nem támogatja az olyan sparklyr metódusokat, mint például spark_web()spark_log() a helyi böngészőt. Mivel azonban a Spark felhasználói felülete beépített az Azure Databricksben, egyszerűen megvizsgálhatja a Spark-feladatokat és a naplókat. Lásd: Számítási illesztőprogramok és feldolgozói naplók.

Példajegyzetfüzet: Sparklyr-bemutató

Sparklyr-jegyzetfüzet

Jegyzetfüzet beszerzése

További példákért lásd : DataFrames és táblák használata az R-ben.