Databricks Connect för R

Anteckning

Den här artikeln beskriver sparklyr integrering med Databricks Connect för Databricks Runtime 13.0 och senare. Den här integreringen tillhandahålls varken av Databricks eller stöds direkt av Databricks.

För frågor går du till Posit Community.

Om du vill rapportera problem går du till avsnittet Issues på lagringsplatsen sparklyr i GitHub.

Mer information finns i Databricks Connect v2 i dokumentationen sparklyr .

Med Databricks Connect kan du ansluta populära IDE:er som RStudio Desktop, notebook-servrar och andra anpassade program till Azure Databricks kluster. Se Databricks Connect.

Anteckning

Databricks Connect har begränsad kompatibilitet med Apache Spark MLlib eftersom Spark MLlib använder RDD:er, medan Databricks Connect endast stöder DataFrame-API:et. Om du vill använda alla Sparklyrs Spark MLlib-funktioner använder du Databricks notebook-filer eller db_repl funktionen i brickster-paketet.

Den här artikeln visar hur du snabbt kommer igång med Databricks Connect for R med hjälp av sparklyr och RStudio Desktop.

Instruktion

I följande självstudiekurs skapar du ett projekt i RStudio, installerar och konfigurerar Databricks Connect för Databricks Runtime 13.3 LTS och senare, och kör enkel kod vid beräkning på Databricks-arbetsytan från RStudio. Ytterligare information om den här självstudien finns i avsnittet "Databricks Connect" i Spark Connect och Databricks Connect v2 på webbplatsen sparklyr.

I den här handledningen används RStudio Desktop och Python 3.10. Om du inte redan har installerat dem installera R och RStudio Desktop och Python 3.10.

Krav

För att slutföra den här självstudien måste du uppfylla följande krav:

  • Målarbetsytan och klustret Azure Databricks måste uppfylla kraven för Compute-konfiguration för Databricks Connect.
  • Du måste ha ditt kluster-ID tillgängligt. Om du vill hämta ditt kluster-ID klickar du på Beräkning i sidofältet i arbetsytan och klickar sedan på klustrets namn. Kopiera teckensträngen mellan clusters och configuration i URL:en i webbläsarens adressfält.

Steg 1: Skapa en personlig åtkomsttoken

Anteckning

Databricks Connect för R-autentisering stöder för närvarande endast Azure Databricks personliga åtkomsttoken.

I den här självstudien används Azure Databricks personlig åtkomsttokenautentisering för autentisering med din Azure Databricks arbetsyta.

Om du redan har en Azure Databricks personlig åtkomsttoken går du vidare till Steg 2. Om du inte är säker på om du redan har en Azure Databricks personlig åtkomsttoken kan du följa det här steget utan att påverka andra Azure Databricks personliga åtkomsttoken i ditt användarkonto.

Om du vill skapa en personlig åtkomsttoken följer du stegen i Skapa personliga åtkomsttoken för arbetsyteanvändare.

Steg 2: Skapa projektet

  1. Starta RStudio Desktop.
  2. På huvudmenyn klickar du på File > New Project.
  3. Välj Ny katalog.
  4. Välj Ny Projekt.
  5. För Katalognamn och Skapa projekt som underkatalog för anger du den nya projektkatalogens namn och var du vill skapa den nya projektkatalogen.
  6. Välj Använd renv med det här projektet. Om du uppmanas att installera en uppdaterad version av renv paketet klickar du på Ja.
  7. Klicka på Skapa Project.

Skapa RStudio Desktop-projektet

Steg 3: Lägg till Databricks Connect-paketet och andra beroenden

  1. På huvudmenyn för RStudio Desktop klickar du på Verktyg > Installera paket.

  2. Låt Installera från inställd till Lagringsplats (CRAN).

  3. För Paket anger du följande lista över paket som är nödvändiga för Databricks Connect-paketet och den här självstudien:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Låt Installera till bibliotek förbli inställt på din virtuella R-miljö.

  5. Kontrollera att Installera beroenden är markerat.

  6. Klicka på Installera.

Installera beroenden för Databricks Connect-paketet

  1. När du uppmanas i konsolvyn (Visa Flytta fokus till konsolen) för att fortsätta med installationen anger du .>Y Paketen sparklyr och pysparklyr och deras beroenden installeras i din virtuella R-miljö.

  2. I fönstret Console använder du reticulate för att installera Python genom att köra följande kommando. (Databricks Connect för R kräver att reticulate och Python installeras först.) I följande kommando ersätter du 3.10 med huvudversionen och delversionen av den Python version som är installerad på ditt Azure Databricks kluster. Information om hur du hittar den här huvudversionen och mindre versionen finns i avsnittet "Systemmiljö" i versionsanteckningarna för din klusters Databricks Runtime-version i Databricks Runtime versionsanteckningar och kompatibilitet.

    reticulate::install_python(version = "3.10")
    
  3. Installera Databricks Connect-paketet i konsolfönstret genom att köra följande kommando. I följande kommando ersätter du 13.3 med Databricks Runtime-versionen som är installerad på ditt Azure Databricks kluster. För att hitta den här versionen, gå till din klusters detaljersida i ditt Azure Databricks-arbetsutrymme och se rutan Configuration på fliken Databricks Runtime Version.

    pysparklyr::install_databricks(version = "13.3")
    

    Om du inte känner till Databricks Runtime-versionen för klustret eller om du inte vill söka efter det kan du köra följande kommando i stället och pysparklyr fråga klustret för att fastställa rätt Databricks Runtime-version som ska användas:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Om du vill att projektet ska ansluta senare till ett annat kluster som har samma Databricks Runtime-version än den som du precis angav använder pysparklyr samma Python miljö. Om det nya klustret har en annan Databricks Runtime-version bör du köra pysparklyr::install_databricks kommandot igen med den nya Databricks Runtime-versionen eller kluster-ID:t.

Steg 4: Ange miljövariabler för arbetsytans URL, åtkomsttoken och kluster-ID

Databricks rekommenderar inte att du hårdkodar känsliga eller ändrar värden, till exempel url:en för din Azure Databricks arbetsyta, Azure Databricks personlig åtkomsttoken eller Azure Databricks kluster-ID i dina R-skript. Lagra i stället dessa värden separat, till exempel i lokala miljövariabler. I den här självstudien används RStudio Desktops inbyggda stöd för att lagra miljövariabler i en .Renviron fil.

  1. Skapa en .Renviron fil för att lagra miljövariablerna, om den här filen inte redan finns och öppna sedan filen för redigering: Kör följande kommando i RStudio Desktop Console:

    usethis::edit_r_environ()
    
  2. .Renviron I filen som visas (Visa > Flytta fokus till källa) anger du följande innehåll. Ersätt följande platshållare i det här innehållet:

    • Ersätt <workspace-url> med url:en per arbetsyta, till exempel https://adb-1234567890123456.7.azuredatabricks.net.
    • Ersätt <personal-access-token> med din Azure Databricks personliga åtkomsttoken från steg 1.
    • Ersätt <cluster-id> med ditt kluster-ID från den här självstudiekursens krav.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Spara filen .Renviron.

  4. Läs in miljövariablerna i R: På huvudmenyn klickar du på Starta om session > R.

Ange miljövariablerna för Databricks Connect

Steg 5: Lägg till kod

  1. På huvudmenyn för RStudio Desktop klickar du på Arkiv > Ny fil > R Script.

  2. Ange följande kod i filen och spara sedan filen (> fil) som demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Steg 6: Kör koden

  1. Klicka på demo.R i verktygsfältet för -filen i RStudio Desktop.

    Kör RStudio Desktop-projektet

  2. I konsolen visas de första fem raderna i trips tabellen.

  3. I vyn Anslutningar (Visa > Visa anslutningar) kan du utforska tillgängliga kataloger, scheman, tabeller och vyer.

    Anslutningsvyn för projektet

Steg 7: Felsöka koden

  1. I filen demo.R klickar du på marginalen bredvid print(trips, n = 5) för att ange en brytpunkt.
  2. I verktygsfältet demo.R för filen klickar du på Källa.
  3. När koden pausar körningen vid brytpunkten kan du granska variablerna i miljövyn (Visa Miljö>).
  4. På huvudmenyn klickar du på Felsöka > Fortsätt.
  5. I konsolen visas de första fem raderna i trips tabellen.

Felsöka RStudio Desktop-projektet