R használata az Apache Sparkhoz
A Microsoft Fabric beépített R-támogatást nyújt az Apache Sparkhoz. Ez magában foglalja a SparkR és a Sparklyr támogatását, amely lehetővé teszi a felhasználók számára, hogy ismerős Spark- vagy R-felületekkel kommunikáljanak a Sparkkal. Az adatokat R-lel, Spark batch-feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel elemezheti.
Fontos
A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosítható. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.
Ez a dokumentum áttekintést nyújt a Spark-alkalmazások Synapse-ban az R nyelv használatával történő fejlesztéséről.
Előfeltételek
Egy Power BI Premium előfizetés. Ha nincs ilyenje, olvassa el a Vásárlás Power BI Premium című témakört.
Egy Power BI-munkaterület hozzárendelt prémium szintű kapacitással. Ha nincs munkaterülete, a Munkaterület létrehozása lépésekkel hozzon létre egyet, és rendelje hozzá egy Prémium szintű kapacitáshoz.
Jelentkezzen be a Microsoft Fabricbe.
Jegyzetfüzet-munkamenetek létrehozása és futtatása
A Microsoft Fabric notebook egy webes felület, amellyel élő kódot, vizualizációkat és elbeszélő szöveget tartalmazó fájlokat hozhat létre. A notebookok kitűnően alkalmasak az ötletek kipróbálására és gyors kísérletek elvégzésére, amelyekkel megállapításokat tehet az adatokról. A jegyzetfüzeteket széles körben használják az adatok előkészítésében, az adatvizualizációkban, a gépi tanulásban és más big data-forgatókönyvekben is.
A Microsoft Fabric-jegyzetfüzetekben az R használatának megkezdéséhez módosítsa az elsődleges nyelvet a jegyzetfüzet tetején úgy, hogy a nyelvi beállítást SparkR (R) értékre állítja.
Emellett több nyelvet is használhat egy jegyzetfüzetben a cella elején található nyelvvarázsló parancs megadásával.
%%sparkr
# Enter your R code here
A Microsoft Fabric Analyticsben található jegyzetfüzetekről a Jegyzetfüzetek használata című témakörben olvashat bővebben.
Csomagok telepítése
A kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet érdemes lehet belefoglalni a programokba vagy projektekbe. Ha elérhetővé szeretné tenni a külső vagy helyileg létrehozott kódot az alkalmazások számára, telepíthet egy tárat az egyik munkaterületre vagy jegyzetfüzet-munkamenetre.
Az R-kódtárak kezelésével kapcsolatos további információkért lásd: R-kódtár-kezelés.
Jegyzetfüzet-segédprogramok
A Microsoft Spark Utilities (MSSparkUtils) egy beépített csomag, amely segít a gyakori feladatok egyszerű végrehajtásában. Az MSSparkUtils használatával együttműködhet a fájlrendszerekkel, lekérheti a környezeti változókat, összekapcsolhatja a jegyzetfüzeteket, és titkos kódokkal dolgozhat. Az MSSparkUtils R-notebookokhoz támogatott.
Első lépésként futtassa a következő parancsokat:
library(notebookutils)
mssparkutils.fs.help()
További információ a támogatott MSSparkUtils-parancsokról a Microsoft Spark Utilities használata című témakörben.
A SparkR használata
A SparkR egy R-csomag, amely egy könnyű előtérrendszert biztosít az Apache Spark R-ből való használatához. A SparkR elosztott adatkeret-implementációt biztosít, amely támogatja az olyan műveleteket, mint a kiválasztás, a szűrés, az összesítés stb. A SparkR az elosztott gépi tanulást is támogatja az MLlib használatával.
A SparkR használatáról a SparkR használata című témakörben talál további információt.
Sparklyr használata
A sparklyr az Apache Spark R-felülete. Ez egy mechanizmust biztosít a Spark használatához ismerős R-interfészek használatával. A Sparklyrt spark batch-feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel is használhatja.
A sparklyr használatáról a Sparklyr használata című témakörben olvashat bővebben.
Megjegyzés
A SparkR és a Sparklyr ugyanabban a jegyzetfüzet-munkamenetben való használata még nem támogatott.
A Tidyverse használata
A Tidyverse olyan R-csomagok gyűjteménye, amelyeket az adattudósok gyakran használnak a mindennapi adatelemzésekben. Adatimportálási csomagokat (readr
), adatvizualizációt (ggplot2
), adatmanipulációt (dplyr
, tidyr
), funkcionális programozást (purrr
) és modellépítést (tidymodels
) stb. tartalmaz. A csomagokat tidyverse
úgy tervezték, hogy zökkenőmentesen működjenek együtt, és egységes tervezési alapelveket kövessenek. A Microsoft Fabric minden futtatókörnyezeti kiadással elosztja a legújabb stabil verzióját tidyverse
.
A Tidyverse használatáról a How to use Tidyverse (A Tidyverse használata) című témakörben olvashat bővebben.
R-vizualizáció
Az R-ökoszisztéma több gráftárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint a Microsoft Fabric összes Spark-példánya válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. További kódtárakat vagy verziókat is hozzáadhat vagy kezelhet a Microsoft Fabric könyvtárkezelési képességeivel.
További információ az R-vizualizációk R-vizualizációk létrehozásáról.