Databricks Connect for R
Feljegyzés
Ez a cikk a Databricks Connect for Databricks Runtime 13.0-s vagy újabb verzióját ismerteti sparklyr
. Ezt az integrációt a Databricks nem biztosítja, és a Databricks sem támogatja közvetlenül.
Kérdéseit a Posit-közösségnél kérdezi le.
A problémák jelentéséhez nyissa meg a GitHub-adattár Problémák szakaszát sparklyr
.
További információ: Databricks Connect v2 a sparklyr
dokumentációban.
Ez a cikk bemutatja, hogyan kezdheti el gyorsan a Databricks Connect használatát az R és sparklyr
az RStudio Desktop használatával.
- A cikk Python-verziójával kapcsolatban lásd : Databricks Connect for Python.
- A cikk Scala-verziójával kapcsolatban lásd : Databricks Connect for Scala.
A Databricks Connect lehetővé teszi a népszerű azonosítók, például az RStudio Desktop, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.
Oktatóanyag
Ez az oktatóanyag az RStudio Desktopot és a Python 3.10-et használja. Ha még nem telepítette őket, telepítse az R és az RStudio Desktopot és a Python 3.10-et.
Az oktatóanyagra vonatkozó kiegészítő információkért tekintse meg a Spark Connect "Databricks Connect" szakaszát és a Databricks Connect v2-t a sparklyr
webhelyen.
Követelmények
Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:
- A cél Azure Databricks-munkaterületnek és -fürtnek meg kell felelnie a Databricks Connect fürtkonfigurációjának követelményeinek.
- A fürtazonosítónak elérhetőnek kell lennie. A fürtazonosító lekéréséhez a munkaterületen kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja ki a karakterek sztringjét az URL-cím között
clusters
ésconfiguration
az URL-címben.
1. lépés: Személyes hozzáférési jogkivonat létrehozása
Feljegyzés
Az R-hitelesítéshez készült Databricks Connect jelenleg csak az Azure Databricks személyes hozzáférési jogkivonatait támogatja.
Ez az oktatóanyag azure Databricks személyes hozzáférési jogkivonat-hitelesítést használ az Azure Databricks-munkaterület hitelesítéséhez.
Ha már rendelkezik Azure Databricks személyes hozzáférési jogkivonattal, ugorjon a 2. lépésre. Ha nem biztos abban, hogy rendelkezik-e már Azure Databricks személyes hozzáférési jogkivonattal, ezt a lépést anélkül követheti, hogy hatással lenne a felhasználói fiókjában lévő többi Azure Databricks személyes hozzáférési jogkivonatra.
Személyes hozzáférési jogkivonat létrehozása:
- Az Azure Databricks-munkaterületen kattintson az Azure Databricks-felhasználónevére a felső sávon, majd válassza a legördülő menü Beállítások elemét .
- Kattintson a Fejlesztőeszközök elemre.
- Az Access-jogkivonatok mellett kattintson a Kezelés gombra.
- Kattintson az Új jogkivonat létrehozása elemre.
- (Nem kötelező) Írjon be egy megjegyzést, amely segít azonosítani a jogkivonatot a jövőben, és módosíthatja a jogkivonat alapértelmezett 90 napos élettartamát. Élettartam nélküli (nem ajánlott) jogkivonat létrehozásához hagyja üresen az Élettartam (nap) mezőt (üres).
- Kattintson a Létrehozás lehetőségre.
- Másolja a megjelenített jogkivonatot egy biztonságos helyre, majd kattintson a Kész gombra.
Feljegyzés
Ügyeljen arra, hogy a másolt jogkivonatot biztonságos helyre mentse. Ne ossza meg másokkal a másolt jogkivonatot. Ha elveszíti a másolt jogkivonatot, nem tudja pontosan ugyanazt a jogkivonatot újragenerálni. Ehelyett meg kell ismételnie ezt az eljárást egy új jogkivonat létrehozásához. Ha elveszíti a másolt jogkivonatot, vagy úgy véli, hogy a jogkivonat sérült, a Databricks határozottan javasolja, hogy azonnal törölje a jogkivonatot a munkaterületről az Access-jogkivonatok lapon a jogkivonat melletti kuka (Visszavonás) ikonra kattintva.
Ha nem tud jogkivonatokat létrehozni vagy használni a munkaterületen, ennek az lehet az oka, hogy a munkaterület rendszergazdája letiltotta a jogkivonatokat, vagy nem adott engedélyt a jogkivonatok létrehozására vagy használatára. Tekintse meg a munkaterület rendszergazdáját vagy a következő témaköröket:
2. lépés: A projekt létrehozása
- Indítsa el az RStudio Desktopot.
- A főmenüben kattintson az Új projekt fájlja elemre>.
- Válassza az Új könyvtár lehetőséget.
- Válassza az Új projekt lehetőséget.
- A Címtárnév és a Projekt létrehozása alkönyvtárként mezőben adja meg az új projektkönyvtár nevét, és azt, hogy hol hozza létre ezt az új projektkönyvtárat.
- Válassza a Renv használata ezzel a projekttel lehetőséget. Ha a rendszer kéri a csomag frissített verziójának telepítését, kattintson az
renv
Igen gombra. - Kattintson a Create Project (Projekt létrehozása) elemre.
3. lépés: A Databricks Connect-csomag és más függőségek hozzáadása
Az RStudio Desktop főmenüjében kattintson az Eszközök > telepítése csomagok elemre.
Hagyja meg a telepítést a beállítástól az Adattár (CRAN) beállítástól.
Csomagok esetén adja meg a Databricks Connect-csomag előfeltételeinek előfeltételeit tartalmazó csomagok alábbi listáját, és ezt az oktatóanyagot:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Hagyja meg a Telepítés erőforrástárra beállítását az R virtuális környezetben.
Győződjön meg arról, hogy a függőségek telepítése ki van választva.
Kattintson az Install (Telepítés) gombra.
Amikor a rendszer a Konzol nézetben (Fókusz > áthelyezése konzolra) kéri a telepítés folytatásához, írja be a következőt
Y
: Asparklyr
csomagok éspysparklyr
függőségeik az R virtuális környezetben vannak telepítve.A Konzol panelen
reticulate
telepítse a Pythont az alábbi parancs futtatásával. (Az R-hez készült Databricks Connect használatáhozreticulate
először telepíteni kell a Pythont.) Az alábbi parancsban cserélje le3.10
az Azure Databricks-fürtre telepített Python-verzió fő- és alverziójára. A fő- és alverzió megkereséséhez tekintse meg a fürt Databricks Runtime-verziójára vonatkozó kibocsátási megjegyzések "Rendszerkörnyezet" szakaszát a Databricks Runtime kiadási megjegyzéseinek verzióiban és kompatibilitásában.reticulate::install_python(version = "3.10")
A Konzol panelen telepítse a Databricks Connect-csomagot az alábbi parancs futtatásával. Az alábbi parancsban cserélje le
13.3
az Azure Databricks-fürtre telepített Databricks Runtime-verziót. A verzió megkereséséhez tekintse meg a Databricks Futtatókörnyezet verziója párbeszédpanelt az Azure Databricks-munkaterület fürtjének részletes lapján, a Konfiguráció lapon.pysparklyr::install_databricks(version = "13.3")
Ha nem ismeri a fürt Databricks Runtime-verzióját, vagy nem szeretné megkeresni, futtassa helyette a következő parancsot, és
pysparklyr
lekérdezi a fürtöt a megfelelő Databricks Runtime-verzió meghatározásához:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Ha azt szeretné, hogy a projekt később kapcsolódjon egy másik fürthöz, amely ugyanazzal a Databricks Runtime-verzióval rendelkezik, mint az imént megadott,
pysparklyr
ugyanazt a Python-környezetet fogja használni. Ha az új fürt másik Databricks Runtime-verzióval rendelkezik, futtassa újra apysparklyr::install_databricks
parancsot az új Databricks Futtatókörnyezet verzióval vagy fürtazonosítóval.
4. lépés: A munkaterület URL-címének, hozzáférési jogkivonatának és fürtazonosítójának környezeti változóinak beállítása
A Databricks nem javasolja, hogy az R-szkriptekbe kódoljon bizalmas értékeket, vagy módosítsa az olyan értékeket, mint az Azure Databricks-munkaterület URL-címe, az Azure Databricks személyes hozzáférési jogkivonata vagy az Azure Databricks-fürt azonosítója. Ehelyett ezeket az értékeket külön tárolja, például helyi környezeti változókban. Ez az oktatóanyag az RStudio Desktop beépített támogatását használja a környezeti változók fájlban .Renviron
való tárolásához.
Hozzon létre egy
.Renviron
fájlt a környezeti változók tárolásához, ha ez a fájl még nem létezik, majd nyissa meg a fájlt szerkesztésre: az RStudio asztali konzolon futtassa a következő parancsot:usethis::edit_r_environ()
.Renviron
A megjelenő fájlban (Fókusz > áthelyezése a forrásba) adja meg a következő tartalmat. Ebben a tartalomban cserélje le a következő helyőrzőket:- Cserélje le
<workspace-url>
példáulhttps://adb-1234567890123456.7.azuredatabricks.net
a munkaterületenkénti URL-címet. - Cserélje le
<personal-access-token>
az Azure Databricks személyes hozzáférési jogkivonatát az 1. lépésben. - Cserélje le
<cluster-id>
a fürtazonosítót az oktatóanyag követelményeiből.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Cserélje le
Mentse a
.Renviron
fájlt.Töltse be a környezeti változókat az R-be: a főmenüben kattintson az R munkamenet újraindítása > gombra.
5. lépés: Kód hozzáadása
Az RStudio Desktop főmenüjében kattintson az Új fájl > R-szkript fájlja > elemre.
Írja be a következő kódot a fájlba, majd mentse a fájlt (Fájl > mentése) a következőként
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
6. lépés: A kód futtatása
Az RStudio Desktopban a fájl eszköztárában kattintson a
demo.R
Forrás gombra.A konzolon megjelenik a
trips
táblázat első öt sora.A Kapcsolatok nézetben (Kapcsolatok megjelenítése) > áttekintheti az elérhető katalógusokat, sémákat, táblákat és nézeteket.
7. lépés: A kód hibakeresése
- A fájlban
demo.R
kattintson a melletti ereszcsatornára a töréspont beállításáhozprint(trips, n = 5)
. - A fájl eszköztárában kattintson a
demo.R
Forrás gombra. - Ha a kód szünetel a törésponton, a környezeti nézetben (Környezet megtekintése>) megvizsgálhatja a változót.
- A főmenüben kattintson a Folytatás hibakeresése elemre>.
- A konzolon megjelenik a
trips
táblázat első öt sora.