Megosztás a következőn keresztül:


Databricks Connect for R

Feljegyzés

Ez a cikk a Databricks Connect for Databricks Runtime 13.0-s vagy újabb verzióját ismerteti sparklyr . Ezt az integrációt a Databricks nem biztosítja, és a Databricks sem támogatja közvetlenül.

Kérdéseit a Posit-közösségnél kérdezi le.

A problémák jelentéséhez nyissa meg a GitHub-adattár Problémák szakaszát sparklyr .

További információ: Databricks Connect v2 a sparklyr dokumentációban.

Ez a cikk bemutatja, hogyan kezdheti el gyorsan a Databricks Connect használatát az R és sparklyraz RStudio Desktop használatával.

A Databricks Connect lehetővé teszi a népszerű azonosítók, például az RStudio Desktop, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.

Oktatóanyag

Ez az oktatóanyag az RStudio Desktopot és a Python 3.10-et használja. Ha még nem telepítette őket, telepítse az R és az RStudio Desktopot és a Python 3.10-et.

Az oktatóanyagra vonatkozó kiegészítő információkért tekintse meg a Spark Connect "Databricks Connect" szakaszát és a Databricks Connect v2-t a sparklyr webhelyen.

Követelmények

Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:

  • A cél Azure Databricks-munkaterületnek és -fürtnek meg kell felelnie a Databricks Connect fürtkonfigurációjának követelményeinek.
  • A fürtazonosítónak elérhetőnek kell lennie. A fürtazonosító lekéréséhez a munkaterületen kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja ki a karakterek sztringjét az URL-cím között clusters és configuration az URL-címben.

1. lépés: Személyes hozzáférési jogkivonat létrehozása

Feljegyzés

Az R-hitelesítéshez készült Databricks Connect jelenleg csak az Azure Databricks személyes hozzáférési jogkivonatait támogatja.

Ez az oktatóanyag azure Databricks személyes hozzáférési jogkivonat-hitelesítést használ az Azure Databricks-munkaterület hitelesítéséhez.

Ha már rendelkezik Azure Databricks személyes hozzáférési jogkivonattal, ugorjon a 2. lépésre. Ha nem biztos abban, hogy rendelkezik-e már Azure Databricks személyes hozzáférési jogkivonattal, ezt a lépést anélkül követheti, hogy hatással lenne a felhasználói fiókjában lévő többi Azure Databricks személyes hozzáférési jogkivonatra.

Személyes hozzáférési jogkivonat létrehozása:

  1. Az Azure Databricks-munkaterületen kattintson az Azure Databricks-felhasználónevére a felső sávon, majd válassza a legördülő menü Beállítások elemét .
  2. Kattintson a Fejlesztőeszközök elemre.
  3. Az Access-jogkivonatok mellett kattintson a Kezelés gombra.
  4. Kattintson az Új jogkivonat létrehozása elemre.
  5. (Nem kötelező) Írjon be egy megjegyzést, amely segít azonosítani a jogkivonatot a jövőben, és módosíthatja a jogkivonat alapértelmezett 90 napos élettartamát. Élettartam nélküli (nem ajánlott) jogkivonat létrehozásához hagyja üresen az Élettartam (nap) mezőt (üres).
  6. Kattintson a Létrehozás lehetőségre.
  7. Másolja a megjelenített jogkivonatot egy biztonságos helyre, majd kattintson a Kész gombra.

Feljegyzés

Ügyeljen arra, hogy a másolt jogkivonatot biztonságos helyre mentse. Ne ossza meg másokkal a másolt jogkivonatot. Ha elveszíti a másolt jogkivonatot, nem tudja pontosan ugyanazt a jogkivonatot újragenerálni. Ehelyett meg kell ismételnie ezt az eljárást egy új jogkivonat létrehozásához. Ha elveszíti a másolt jogkivonatot, vagy úgy véli, hogy a jogkivonat sérült, a Databricks határozottan javasolja, hogy azonnal törölje a jogkivonatot a munkaterületről az Access-jogkivonatok lapon a jogkivonat melletti kuka (Visszavonás) ikonra kattintva.

Ha nem tud jogkivonatokat létrehozni vagy használni a munkaterületen, ennek az lehet az oka, hogy a munkaterület rendszergazdája letiltotta a jogkivonatokat, vagy nem adott engedélyt a jogkivonatok létrehozására vagy használatára. Tekintse meg a munkaterület rendszergazdáját vagy a következő témaköröket:

2. lépés: A projekt létrehozása

  1. Indítsa el az RStudio Desktopot.
  2. A főmenüben kattintson az Új projekt fájlja elemre>.
  3. Válassza az Új könyvtár lehetőséget.
  4. Válassza az Új projekt lehetőséget.
  5. A Címtárnév és a Projekt létrehozása alkönyvtárként mezőben adja meg az új projektkönyvtár nevét, és azt, hogy hol hozza létre ezt az új projektkönyvtárat.
  6. Válassza a Renv használata ezzel a projekttel lehetőséget. Ha a rendszer kéri a csomag frissített verziójának telepítését, kattintson az renv Igen gombra.
  7. Kattintson a Create Project (Projekt létrehozása) elemre.

Az RStudio Desktop projekt létrehozása

3. lépés: A Databricks Connect-csomag és más függőségek hozzáadása

  1. Az RStudio Desktop főmenüjében kattintson az Eszközök > telepítése csomagok elemre.

  2. Hagyja meg a telepítést a beállítástól az Adattár (CRAN) beállítástól.

  3. Csomagok esetén adja meg a Databricks Connect-csomag előfeltételeinek előfeltételeit tartalmazó csomagok alábbi listáját, és ezt az oktatóanyagot:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Hagyja meg a Telepítés erőforrástárra beállítását az R virtuális környezetben.

  5. Győződjön meg arról, hogy a függőségek telepítése ki van választva.

  6. Kattintson az Install (Telepítés) gombra.

A Databricks Connect-csomag függőségeinek telepítése

  1. Amikor a rendszer a Konzol nézetben (Fókusz > áthelyezése konzolra) kéri a telepítés folytatásához, írja be a következőt Y: A sparklyr csomagok és pysparklyr függőségeik az R virtuális környezetben vannak telepítve.

  2. A Konzol panelen reticulate telepítse a Pythont az alábbi parancs futtatásával. (Az R-hez készült Databricks Connect használatához reticulate először telepíteni kell a Pythont.) Az alábbi parancsban cserélje le 3.10 az Azure Databricks-fürtre telepített Python-verzió fő- és alverziójára. A fő- és alverzió megkereséséhez tekintse meg a fürt Databricks Runtime-verziójára vonatkozó kibocsátási megjegyzések "Rendszerkörnyezet" szakaszát a Databricks Runtime kiadási megjegyzéseinek verzióiban és kompatibilitásában.

    reticulate::install_python(version = "3.10")
    
  3. A Konzol panelen telepítse a Databricks Connect-csomagot az alábbi parancs futtatásával. Az alábbi parancsban cserélje le 13.3 az Azure Databricks-fürtre telepített Databricks Runtime-verziót. A verzió megkereséséhez tekintse meg a Databricks Futtatókörnyezet verziója párbeszédpanelt az Azure Databricks-munkaterület fürtjének részletes lapján, a Konfiguráció lapon.

    pysparklyr::install_databricks(version = "13.3")
    

    Ha nem ismeri a fürt Databricks Runtime-verzióját, vagy nem szeretné megkeresni, futtassa helyette a következő parancsot, és pysparklyr lekérdezi a fürtöt a megfelelő Databricks Runtime-verzió meghatározásához:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Ha azt szeretné, hogy a projekt később kapcsolódjon egy másik fürthöz, amely ugyanazzal a Databricks Runtime-verzióval rendelkezik, mint az imént megadott, pysparklyr ugyanazt a Python-környezetet fogja használni. Ha az új fürt másik Databricks Runtime-verzióval rendelkezik, futtassa újra a pysparklyr::install_databricks parancsot az új Databricks Futtatókörnyezet verzióval vagy fürtazonosítóval.

4. lépés: A munkaterület URL-címének, hozzáférési jogkivonatának és fürtazonosítójának környezeti változóinak beállítása

A Databricks nem javasolja, hogy az R-szkriptekbe kódoljon bizalmas értékeket, vagy módosítsa az olyan értékeket, mint az Azure Databricks-munkaterület URL-címe, az Azure Databricks személyes hozzáférési jogkivonata vagy az Azure Databricks-fürt azonosítója. Ehelyett ezeket az értékeket külön tárolja, például helyi környezeti változókban. Ez az oktatóanyag az RStudio Desktop beépített támogatását használja a környezeti változók fájlban .Renviron való tárolásához.

  1. Hozzon létre egy .Renviron fájlt a környezeti változók tárolásához, ha ez a fájl még nem létezik, majd nyissa meg a fájlt szerkesztésre: az RStudio asztali konzolon futtassa a következő parancsot:

    usethis::edit_r_environ()
    
  2. .Renviron A megjelenő fájlban (Fókusz > áthelyezése a forrásba) adja meg a következő tartalmat. Ebben a tartalomban cserélje le a következő helyőrzőket:

    • Cserélje le <workspace-url> például https://adb-1234567890123456.7.azuredatabricks.neta munkaterületenkénti URL-címet.
    • Cserélje le <personal-access-token> az Azure Databricks személyes hozzáférési jogkivonatát az 1. lépésben.
    • Cserélje le <cluster-id> a fürtazonosítót az oktatóanyag követelményeiből.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Mentse a .Renviron fájlt.

  4. Töltse be a környezeti változókat az R-be: a főmenüben kattintson az R munkamenet újraindítása > gombra.

A Databricks Connect környezeti változóinak beállítása

5. lépés: Kód hozzáadása

  1. Az RStudio Desktop főmenüjében kattintson az Új fájl > R-szkript fájlja > elemre.

  2. Írja be a következő kódot a fájlba, majd mentse a fájlt (Fájl > mentése) a következőként demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

6. lépés: A kód futtatása

  1. Az RStudio Desktopban a fájl eszköztárában kattintson a demo.R Forrás gombra.

    Az RStudio Desktop projekt futtatása

  2. A konzolon megjelenik a trips táblázat első öt sora.

  3. A Kapcsolatok nézetben (Kapcsolatok megjelenítése) > áttekintheti az elérhető katalógusokat, sémákat, táblákat és nézeteket.

    A projekt Kapcsolatok nézete

7. lépés: A kód hibakeresése

  1. A fájlban demo.R kattintson a melletti ereszcsatornára a töréspont beállításához print(trips, n = 5) .
  2. A fájl eszköztárában kattintson a demo.R Forrás gombra.
  3. Ha a kód szünetel a törésponton, a környezeti nézetben (Környezet megtekintése>) megvizsgálhatja a változót.
  4. A főmenüben kattintson a Folytatás hibakeresése elemre>.
  5. A konzolon megjelenik a trips táblázat első öt sora.

Az RStudio Desktop projekt hibakeresése