Az R használata az Apache Sparkhoz

A Microsoft Fabric beépített R-támogatást nyújt az Apache Sparkhoz. Ez magában foglalja a SparkR és a Sparklyr támogatását, amely lehetővé teszi a felhasználók számára, hogy ismerős Spark- vagy R-felületek használatával kommunikáljanak a Sparkkal. Az adatokat az R használatával sparkos kötegelt feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel elemezheti.

Ez a dokumentum áttekintést nyújt a Spark-alkalmazások Synapse-ban való fejlesztéséről az R nyelv használatával.

Előfeltételek

  • Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.

  • Jelentkezzen be a Microsoft Fabricbe.

  • A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Jegyzetfüzet-munkamenetek létrehozása és futtatása

A Microsoft Fabric-jegyzetfüzet egy webes felület, amellyel élő kódot, vizualizációkat és kísérőszövegeket tartalmazó fájlokat hozhat létre. A notebookok kitűnően alkalmasak az ötletek kipróbálására és gyors kísérletek elvégzésére, amelyekkel megállapításokat tehet az adatokról. A jegyzetfüzeteket széles körben használják az adatok előkészítésében, az adatvizualizációban, a gépi tanulásban és más big data-forgatókönyvekben is.

A Microsoft Fabric-jegyzetfüzetekben az R használatának megkezdéséhez módosítsa a jegyzetfüzet tetején lévő elsődleges nyelvet úgy, hogy a nyelvi beállítást SparkR (R) értékre állítja.

Emellett több nyelvet is használhat egy jegyzetfüzetben a cella elején található nyelvvarázsló parancs megadásával.

%%sparkr
# Enter your R code here

A Microsoft Fabric Analyticsben található jegyzetfüzetekről a Jegyzetfüzetek használata című témakörben olvashat bővebben.

Csomagok telepítése

A kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet érdemes lehet belefoglalni a programokba vagy projektekbe. Ha külső vagy helyileg létrehozott kódot szeretne elérhetővé tenni az alkalmazások számára, telepíthet egy tárat az egyik munkaterületre vagy jegyzetfüzet-munkamenetre.

Az R-kódtárak kezelésével kapcsolatos további információkért lásd : R-kódtár-kezelés.

Jegyzetfüzet-segédprogramok

A Microsoft Spark Utilities (MSSparkUtils) egy beépített csomag, amely megkönnyíti a gyakori feladatok elvégzését. Az MSSparkUtils használatával fájlrendszerekkel dolgozhat, környezeti változókat kérhet le, jegyzetfüzeteket láncba rendezhet és titkos kódokkal dolgozhat. Az MSSparkUtils R-jegyzetfüzetekhez támogatott.

Első lépésként futtassa a következő parancsokat:

library(notebookutils)
mssparkutils.fs.help()

További információ a Támogatott MSSparkUtils parancsokról a Microsoft Spark segédprogramok használatakor.

A SparkR használata

A SparkR egy R-csomag, amely egy könnyű előtérrendszert biztosít az Apache Spark R-ből való használatához. A SparkR elosztott adatkeret-implementációt biztosít, amely támogatja az olyan műveleteket, mint a kiválasztás, a szűrés, az összesítés stb. A SparkR támogatja az elosztott gépi tanulást az MLlib használatával.

A SparkR használatáról a SparkR használata című témakörben talál további információt.

Sparklyr használata

A sparklyr az Apache Spark R-felülete. Olyan mechanizmust biztosít, amellyel a Spark jól ismert R-felületekkel kommunikálhat. A Sparklyr a Spark batch-feladatdefiníciókkal vagy interaktív Microsoft Fabric-jegyzetfüzetekkel is használható.

A Sparklyr használatáról a Sparklyr használata című témakörben olvashat bővebben.

A Tidyverse használata

A Tidyverse olyan R-csomagok gyűjteménye, amelyeket az adattudósok gyakran használnak a mindennapi adatelemzésekben. Adatimportálási (), adatvizualizációs (readrggplot2), adatmanipulációs (dplyr, tidyrfunkcionális programozási (purrr) és modellépítési (tidymodels) csomagokat tartalmaz. A csomagokat tidyverse úgy tervezték, hogy zökkenőmentesen működjenek együtt, és egységes tervezési alapelveket kövessenek. A Microsoft Fabric minden futtatókörnyezeti kiadással elosztja a legújabb stabil verziót tidyverse .

A Tidyverse használatáról a Tidyverse használata című témakörben olvashat bővebben.

R-vizualizáció

Az R-ökoszisztéma több gráfkódtárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint a Microsoft Fabric összes Spark-példánya válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. További kódtárakat vagy verziókat is hozzáadhat vagy kezelhet a Microsoft Fabric könyvtárkezelési képességeivel.

További információ az R-vizualizációk R-vizualizációk létrehozásáról.