Databricks Connect för R

Artikel
07/16/2024

Kommentar

Den här artikeln beskriver sparklyr integrering med Databricks Connect för Databricks Runtime 13.0 och senare. Den här integreringen tillhandahålls varken av Databricks eller stöds direkt av Databricks.

För frågor går du till Posit Community.

Om du vill rapportera problem går du till avsnittet Problem på lagringsplatsen sparklyr i GitHub.

Mer information finns i Databricks Connect v2 i dokumentationen sparklyr .

Den här artikeln visar hur du snabbt kommer igång med Databricks Connect med hjälp av R, sparklyroch RStudio Desktop.

Python-versionen av den här artikeln finns i Databricks Connect för Python.
Scala-versionen av den här artikeln finns i Databricks Connect för Scala.

Med Databricks Connect kan du ansluta populära IDE:er som RStudio Desktop, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Connect?.

Självstudie

I den här självstudien används RStudio Desktop och Python 3.10. Om du inte redan har installerat dem installerar du R och RStudio Desktop och Python 3.10.

Ytterligare information om den här självstudien finns i avsnittet "Databricks Connect" i Spark Connect och Databricks Connect v2 på sparklyr webbplatsen.

Krav

För att slutföra den här självstudien måste du uppfylla följande krav:

Din Azure Databricks-målarbetsyta och ditt kluster måste uppfylla kraven för klusterkonfiguration för Databricks Connect.
Du måste ha ditt kluster-ID tillgängligt. Om du vill hämta ditt kluster-ID klickar du på Beräkning i sidofältet i arbetsytan och klickar sedan på klustrets namn. Kopiera teckensträngen mellan clusters och configuration i URL:en i webbläsarens adressfält.

Steg 1: Skapa en personlig åtkomsttoken

Kommentar

Databricks Connect för R-autentisering stöder för närvarande endast personliga åtkomsttoken för Azure Databricks.

I den här självstudien används autentisering med personlig åtkomsttoken i Azure Databricks för autentisering med din Azure Databricks-arbetsyta.

Om du redan har en personlig åtkomsttoken för Azure Databricks går du vidare till Steg 2. Om du inte är säker på om du redan har en personlig åtkomsttoken för Azure Databricks kan du följa det här steget utan att påverka andra personliga Åtkomsttoken för Azure Databricks i ditt användarkonto.

Så här skapar du en personlig åtkomsttoken:

I din Azure Databricks-arbetsyta klickar du på ditt Användarnamn för Azure Databricks i det övre fältet och väljer sedan Inställningar i listrutan.
Klicka på Utvecklare.
Bredvid Åtkomsttoken klickar du på Hantera.
Klicka på Generera ny token.
(Valfritt) Ange en kommentar som hjälper dig att identifiera den här token i framtiden och ändra tokens standardlivslängd på 90 dagar. Om du vill skapa en token utan livslängd (rekommenderas inte) lämnar du rutan Livslängd (dagar) tom (tom).
Klicka på Generera.
Kopiera den visade token till en säker plats och klicka sedan på Klar.

Kommentar

Se till att spara den kopierade token på en säker plats. Dela inte din kopierade token med andra. Om du förlorar den kopierade token kan du inte återskapa exakt samma token. I stället måste du upprepa den här proceduren för att skapa en ny token. Om du förlorar den kopierade token eller om du tror att token har komprometterats rekommenderar Databricks starkt att du omedelbart tar bort den token från arbetsytan genom att klicka på papperskorgsikonen (Återkalla) bredvid token på sidan Åtkomsttoken .

Om du inte kan skapa eller använda token på din arbetsyta kan det bero på att arbetsyteadministratören har inaktiverat token eller inte har gett dig behörighet att skapa eller använda token. Se administratören för arbetsytan eller följande avsnitt:

Steg 2: Skapa projektet

Starta RStudio Desktop.
På huvudmenyn klickar du på Arkiv > Nytt projekt.
Välj Ny katalog.
Välj Nytt projekt.
För Katalognamn och Skapa projekt som underkatalog för anger du den nya projektkatalogens namn och var du vill skapa den nya projektkatalogen.
Välj Använd renv med det här projektet. Om du uppmanas att installera en uppdaterad version av renv paketet klickar du på Ja.
Klicka på Create Project (Skapa projekt).

Skapa RStudio Desktop-projektet

Steg 3: Lägg till Databricks Connect-paketet och andra beroenden

På huvudmenyn för RStudio Desktop klickar du på Verktyg > Installera paket.
Låt Installera från inställd till Lagringsplats (CRAN).
För Paket anger du följande lista över paket som är nödvändiga för Databricks Connect-paketet och den här självstudien:
```
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
```
Låt Installera till bibliotek vara inställt på din virtuella R-miljö.
Kontrollera att Installera beroenden är markerat.
Klicka på Installera.

Installera beroenden för Databricks Connect-paketet

När du uppmanas i konsolvyn (Visa Flytta fokus till konsolen) för att fortsätta med installationen anger du Y.> Paketen sparklyr och pysparklyr och deras beroenden installeras i din virtuella R-miljö.
I konsolfönstret använder du reticulate för att installera Python genom att köra följande kommando. (Databricks Connect för R kräver reticulate att Python installeras först.) I följande kommando ersätter du 3.10 med huvudversionen och delversionen av Python-versionen som är installerad i ditt Azure Databricks-kluster. Information om hur du hittar den här huvudversionen och delversionen finns i avsnittet "Systemmiljö" i viktig information för ditt klusters Databricks Runtime-version i Databricks Runtime versionsanteckningar och kompatibilitet.
```
reticulate::install_python(version = "3.10")
```
Installera Databricks Connect-paketet i konsolfönstret genom att köra följande kommando. I följande kommando ersätter du 13.3 med den Databricks Runtime-version som är installerad i ditt Azure Databricks-kluster. Om du vill hitta den här versionen går du till informationssidan för klustret på azure Databricks-arbetsytan på fliken Konfiguration i rutan Databricks Runtime-version.
```
pysparklyr::install_databricks(version = "13.3")
```
Om du inte känner till Databricks Runtime-versionen för klustret eller om du inte vill söka efter det kan du köra följande kommando i stället och pysparklyr fråga klustret för att fastställa rätt Databricks Runtime-version som ska användas:
```
pysparklyr::install_databricks(cluster_id = "<cluster-id>")
```
Om du vill att projektet ska ansluta senare till ett annat kluster som har samma Databricks Runtime-version än den som du precis angav använder pysparklyr du samma Python-miljö. Om det nya klustret har en annan Databricks Runtime-version bör du köra pysparklyr::install_databricks kommandot igen med den nya Databricks Runtime-versionen eller kluster-ID:t.

Steg 4: Ange miljövariabler för arbetsytans URL, åtkomsttoken och kluster-ID

Databricks rekommenderar inte att du hårdkodar känsliga eller ändrade värden, till exempel url:en för din Azure Databricks-arbetsyta, Azure Databricks personliga åtkomsttoken eller Azure Databricks-kluster-ID i dina R-skript. Lagra i stället dessa värden separat, till exempel i lokala miljövariabler. I den här självstudien används RStudio Desktops inbyggda stöd för att lagra miljövariabler i en .Renviron fil.

Skapa en .Renviron fil för att lagra miljövariablerna, om den här filen inte redan finns och öppna sedan filen för redigering: Kör följande kommando i RStudio Desktop Console:
```
usethis::edit_r_environ()
```
.Renviron I filen som visas (Visa > Flytta fokus till källa) anger du följande innehåll. Ersätt följande platshållare i det här innehållet:
- Ersätt <workspace-url> med url:en per arbetsyta, till exempel https://adb-1234567890123456.7.azuredatabricks.net.
- Ersätt <personal-access-token> med din personliga åtkomsttoken för Azure Databricks från steg 1.
- Ersätt <cluster-id> med ditt kluster-ID från den här självstudiekursens krav.
```
DATABRICKS_HOST=<workspace-url>
DATABRICKS_TOKEN=<personal-access-token>
DATABRICKS_CLUSTER_ID=<cluster-id>
```
Spara filen .Renviron.
Läs in miljövariablerna i R: På huvudmenyn klickar du på Starta om session > R.

Ange miljövariablerna för Databricks Connect

Steg 5: Lägg till kod

På huvudmenyn för RStudio Desktop klickar du på Arkiv Nytt fil R-skript>.>

Ange följande kod i filen och spara sedan filen (Spara fil>) som demo.R:

library(sparklyr)
library(dplyr)
library(dbplyr)

sc <- sparklyr::spark_connect(
  master     = Sys.getenv("DATABRICKS_HOST"),
  cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
  token      = Sys.getenv("DATABRICKS_TOKEN"),
  method     = "databricks_connect",
  envname    = "r-reticulate"
)

trips <- dplyr::tbl(
  sc,
  dbplyr::in_catalog("samples", "nyctaxi", "trips")
)

print(trips, n = 5)

Steg 6: Kör koden

Klicka på Källa i verktygsfältet demo.R för filen i RStudio Desktop.
I konsolen visas de första fem raderna i trips tabellen.
I vyn Anslutningar (Visa > Visa anslutningar) kan du utforska tillgängliga kataloger, scheman, tabeller och vyer.

Steg 7: Felsöka koden

demo.R I filen klickar du på rännstenen bredvid för att print(trips, n = 5) ange en brytpunkt.
I verktygsfältet demo.R för filen klickar du på Källa.
När koden pausar körningen vid brytpunkten kan du granska variabeln i miljövyn (Visa visa > miljö).
På huvudmenyn klickar du på Felsöka > Fortsätt.
I konsolen visas de första fem raderna i trips tabellen.

Felsöka RStudio Desktop-projektet

Dela via

Databricks Connect för R

Självstudie

Krav

Steg 1: Skapa en personlig åtkomsttoken

Steg 2: Skapa projektet

Steg 3: Lägg till Databricks Connect-paketet och andra beroenden

Steg 4: Ange miljövariabler för arbetsytans URL, åtkomsttoken och kluster-ID

Steg 5: Lägg till kod

Steg 6: Kör koden

Steg 7: Felsöka koden

Feedback

Ytterligare resurser