R használata az Apache Sparkhoz

A Microsoft Fabric beépített R-támogatást nyújt az Apache Sparkhoz. Ez magában foglalja a SparkR és a Sparklyr támogatását, amely lehetővé teszi a felhasználók számára, hogy ismerős Spark- vagy R-felületekkel kommunikáljanak a Sparkkal. Az adatokat R-lel, Spark batch-feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel elemezheti.

Fontos

A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosítható. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.

Ez a dokumentum áttekintést nyújt a Spark-alkalmazások Synapse-ban az R nyelv használatával történő fejlesztéséről.

Előfeltételek

Jegyzetfüzet-munkamenetek létrehozása és futtatása

A Microsoft Fabric notebook egy webes felület, amellyel élő kódot, vizualizációkat és elbeszélő szöveget tartalmazó fájlokat hozhat létre. A notebookok kitűnően alkalmasak az ötletek kipróbálására és gyors kísérletek elvégzésére, amelyekkel megállapításokat tehet az adatokról. A jegyzetfüzeteket széles körben használják az adatok előkészítésében, az adatvizualizációkban, a gépi tanulásban és más big data-forgatókönyvekben is.

A Microsoft Fabric-jegyzetfüzetekben az R használatának megkezdéséhez módosítsa az elsődleges nyelvet a jegyzetfüzet tetején úgy, hogy a nyelvi beállítást SparkR (R) értékre állítja.

Emellett több nyelvet is használhat egy jegyzetfüzetben a cella elején található nyelvvarázsló parancs megadásával.

%%sparkr
# Enter your R code here

A Microsoft Fabric Analyticsben található jegyzetfüzetekről a Jegyzetfüzetek használata című témakörben olvashat bővebben.

Csomagok telepítése

A kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet érdemes lehet belefoglalni a programokba vagy projektekbe. Ha elérhetővé szeretné tenni a külső vagy helyileg létrehozott kódot az alkalmazások számára, telepíthet egy tárat az egyik munkaterületre vagy jegyzetfüzet-munkamenetre.

Az R-kódtárak kezelésével kapcsolatos további információkért lásd: R-kódtár-kezelés.

Jegyzetfüzet-segédprogramok

A Microsoft Spark Utilities (MSSparkUtils) egy beépített csomag, amely segít a gyakori feladatok egyszerű végrehajtásában. Az MSSparkUtils használatával együttműködhet a fájlrendszerekkel, lekérheti a környezeti változókat, összekapcsolhatja a jegyzetfüzeteket, és titkos kódokkal dolgozhat. Az MSSparkUtils R-notebookokhoz támogatott.

Első lépésként futtassa a következő parancsokat:

library(notebookutils)
mssparkutils.fs.help()

További információ a támogatott MSSparkUtils-parancsokról a Microsoft Spark Utilities használata című témakörben.

A SparkR használata

A SparkR egy R-csomag, amely egy könnyű előtérrendszert biztosít az Apache Spark R-ből való használatához. A SparkR elosztott adatkeret-implementációt biztosít, amely támogatja az olyan műveleteket, mint a kiválasztás, a szűrés, az összesítés stb. A SparkR az elosztott gépi tanulást is támogatja az MLlib használatával.

A SparkR használatáról a SparkR használata című témakörben talál további információt.

Sparklyr használata

A sparklyr az Apache Spark R-felülete. Ez egy mechanizmust biztosít a Spark használatához ismerős R-interfészek használatával. A Sparklyrt spark batch-feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel is használhatja.

A sparklyr használatáról a Sparklyr használata című témakörben olvashat bővebben.

Megjegyzés

A SparkR és a Sparklyr ugyanabban a jegyzetfüzet-munkamenetben való használata még nem támogatott.

A Tidyverse használata

A Tidyverse olyan R-csomagok gyűjteménye, amelyeket az adattudósok gyakran használnak a mindennapi adatelemzésekben. Adatimportálási csomagokat (readr), adatvizualizációt (ggplot2), adatmanipulációt (dplyr, tidyr), funkcionális programozást (purrr) és modellépítést (tidymodels) stb. tartalmaz. A csomagokat tidyverse úgy tervezték, hogy zökkenőmentesen működjenek együtt, és egységes tervezési alapelveket kövessenek. A Microsoft Fabric minden futtatókörnyezeti kiadással elosztja a legújabb stabil verzióját tidyverse .

A Tidyverse használatáról a How to use Tidyverse (A Tidyverse használata) című témakörben olvashat bővebben.

R-vizualizáció

Az R-ökoszisztéma több gráftárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint a Microsoft Fabric összes Spark-példánya válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. További kódtárakat vagy verziókat is hozzáadhat vagy kezelhet a Microsoft Fabric könyvtárkezelési képességeivel.

További információ az R-vizualizációk R-vizualizációk létrehozásáról.

Következő lépések