Delen via


Databricks-Verbinding maken voor R

Notitie

In dit artikel wordt de integratie met sparklyr Databricks Verbinding maken voor Databricks Runtime 13.0 en hoger beschreven. Deze integratie wordt niet geleverd door Databricks en wordt niet rechtstreeks ondersteund door Databricks.

Ga naar de Posit Community voor vragen.

Als u problemen wilt melden, gaat u naar de sectie Problemen van de sparklyr opslagplaats in GitHub.

Zie Databricks Verbinding maken v2 in de sparklyr documentatie voor meer informatie.

In dit artikel wordt gedemonstreerd hoe u snel aan de slag kunt met Databricks Verbinding maken met behulp van R, sparklyren RStudio Desktop.

Met Databricks Verbinding maken kunt u populaire IDE's, zoals RStudio Desktop, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken?

Zelfstudie

In deze zelfstudie wordt gebruikgemaakt van RStudio Desktop en Python 3.10. Als u deze nog niet hebt geïnstalleerd, installeert u R en RStudio Desktop en Python 3.10.

Zie de sectie 'Databricks Verbinding maken' van Spark Verbinding maken en Databricks Verbinding maken v2 op de website voor aanvullende informatie over deze sparklyr zelfstudie.

Vereisten

Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:

  • Uw Azure Databricks-doelwerkruimte en -cluster moeten voldoen aan de vereisten voor clusterconfiguratie voor Databricks Verbinding maken.
  • U moet de cluster-id beschikbaar hebben. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen clusters en configuration in de URL.

Stap 1: Een persoonlijk toegangstoken maken

Notitie

Databricks Verbinding maken voor R-verificatie ondersteunt momenteel alleen persoonlijke toegangstokens van Azure Databricks.

In deze zelfstudie wordt gebruikgemaakt van persoonlijke toegangstokenverificatie van Azure Databricks voor verificatie met uw Azure Databricks-werkruimte.

Als u al een persoonlijk toegangstoken van Azure Databricks hebt, gaat u verder met stap 2. Als u niet zeker weet of u al een persoonlijk toegangstoken van Azure Databricks hebt, kunt u deze stap volgen zonder dat dit van invloed is op andere persoonlijke toegangstokens van Azure Databricks in uw gebruikersaccount.

Een persoonlijk toegangstoken maken:

  1. Klik in uw Azure Databricks-werkruimte op de gebruikersnaam van Azure Databricks in de bovenste balk en selecteer vervolgens Instellingen in de vervolgkeuzelijst.
  2. Klik op Ontwikkelaars.
  3. Klik naast Access-tokens op Beheren.
  4. Klik op Nieuw token genereren.
  5. (Optioneel) Voer een opmerking in waarmee u dit token in de toekomst kunt identificeren en de standaardlevensduur van het token van 90 dagen kunt wijzigen. Als u een token zonder levensduur wilt maken (niet aanbevolen), laat u het vak Levensduur (dagen) leeg (leeg).
  6. Klik op Genereren.
  7. Kopieer het weergegeven token naar een veilige locatie en klik vervolgens op Gereed.

Notitie

Zorg ervoor dat u het gekopieerde token op een veilige locatie opslaat. Deel uw gekopieerde token niet met anderen. Als u het gekopieerde token kwijtraakt, kunt u dat token niet opnieuw genereren. In plaats daarvan moet u deze procedure herhalen om een nieuw token te maken. Als u het gekopieerde token kwijtraakt of als u denkt dat het token is aangetast, raadt Databricks u ten zeerste aan dat u dat token onmiddellijk uit uw werkruimte verwijdert door te klikken op het prullenbakpictogram (Intrekken) naast het token op de pagina Toegangstokens .

Als u geen tokens in uw werkruimte kunt maken of gebruiken, kan dit komen doordat uw werkruimtebeheerder tokens heeft uitgeschakeld of u geen toestemming hebt gegeven om tokens te maken of te gebruiken. Neem de werkruimtebeheerder of het volgende weer:

Stap 2: Het project maken

  1. Start RStudio Desktop.
  2. Klik in het hoofdmenu op Bestand > nieuw project.
  3. Selecteer Nieuwe map.
  4. Selecteer Nieuw project.
  5. Voer voor mapnaam en project maken als submap van de nieuwe projectmap de naam in en waar u deze nieuwe projectmap wilt maken.
  6. Selecteer Renv gebruiken met dit project. Als u wordt gevraagd een bijgewerkte versie van het renv pakket te installeren, klikt u op Ja.
  7. Klik op Project maken.

Het RStudio Desktop-project maken

Stap 3: Het Databricks-Verbinding maken-pakket en andere afhankelijkheden toevoegen

  1. Klik in het hoofdmenu van RStudio Desktop op Tools > Install Packages.

  2. Laat Installeren ingesteld op Opslagplaats (CRAN).

  3. Voer voor Pakketten de volgende lijst in met pakketten die vereisten zijn voor het Databricks-Verbinding maken-pakket en deze zelfstudie:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Laat Install to Library ingesteld op uw virtuele R-omgeving.

  5. Zorg ervoor dat Afhankelijkheden installeren is geselecteerd.

  6. Klik op Install.

De Databricks Verbinding maken pakketafhankelijkheden installeren

  1. Wanneer u wordt gevraagd in de consoleweergave (Focus verplaatsen naar console weergeven) om door te gaan met de installatie, voert u het volgende inY.> De sparklyr en pysparklyr pakketten en de bijbehorende afhankelijkheden worden geïnstalleerd in uw virtuele R-omgeving.

  2. Gebruik reticulate in het consoledeelvenster python te installeren door de volgende opdracht uit te voeren. (Databricks Verbinding maken voor R vereist reticulate en Python moet eerst worden geïnstalleerd.) Vervang in de volgende opdracht door 3.10 de primaire en secundaire versie van de Python-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze primaire en secundaire versie wilt vinden, raadpleegt u de sectie Systeemomgeving van de releaseopmerkingen voor de Databricks Runtime-versie van uw cluster in de releaseversies en compatibiliteit van Databricks Runtime.

    reticulate::install_python(version = "3.10")
    
  3. Installeer in het consolevenster het Databricks-Verbinding maken-pakket door de volgende opdracht uit te voeren. Vervang in de volgende opdracht door 13.3 de Databricks Runtime-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze versie wilt vinden, raadpleegt u op de detailpagina van uw cluster in uw Azure Databricks-werkruimte op het tabblad Configuratie het vak Databricks Runtime-versie .

    pysparklyr::install_databricks(version = "13.3")
    

    Als u de Databricks Runtime-versie voor uw cluster niet kent of als u deze niet wilt opzoeken, kunt u in plaats daarvan de volgende opdracht uitvoeren en pysparklyr het cluster opvragen om de juiste Databricks Runtime-versie te bepalen die u wilt gebruiken:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Als u wilt dat uw project later verbinding maakt met een ander cluster met dezelfde Databricks Runtime-versie dan de versie die u zojuist hebt opgegeven, pysparklyr gebruikt u dezelfde Python-omgeving. Als het nieuwe cluster een andere Versie van Databricks Runtime heeft, moet u de pysparklyr::install_databricks opdracht opnieuw uitvoeren met de nieuwe Versie of cluster-id van Databricks Runtime.

Stap 4: Omgevingsvariabelen instellen voor de URL van de werkruimte, het toegangstoken en de cluster-id

Databricks raadt u niet aan om gevoelige waarden in code vast te stellen of te wijzigen, zoals de URL van uw Azure Databricks-werkruimte, het persoonlijke toegangstoken van Azure Databricks of de azure Databricks-cluster-id in uw R-scripts. Sla deze waarden in plaats daarvan afzonderlijk op, bijvoorbeeld in lokale omgevingsvariabelen. In deze zelfstudie wordt gebruikgemaakt van de ingebouwde ondersteuning van RStudio Desktop voor het opslaan van omgevingsvariabelen in een .Renviron bestand.

  1. Maak een .Renviron bestand om de omgevingsvariabelen op te slaan, als dit bestand nog niet bestaat en open dit bestand om te bewerken: voer in de RStudio Desktop-console de volgende opdracht uit:

    usethis::edit_r_environ()
    
  2. Voer in het .Renviron bestand dat wordt weergegeven (Focus verplaatsen naar bron weergeven>) de volgende inhoud in. Vervang in deze inhoud de volgende tijdelijke aanduidingen:

    • Vervang <workspace-url> bijvoorbeeld door uw URLhttps://adb-1234567890123456.7.azuredatabricks.net per werkruimte.
    • Vervang <personal-access-token> dit door uw persoonlijke toegangstoken van Azure Databricks uit stap 1.
    • Vervang <cluster-id> door uw cluster-id uit de vereisten van deze zelfstudie.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. Sla het bestand .Renviron op.

  4. Laad de omgevingsvariabelen in R: klik in het hoofdmenu op Sessie > opnieuw opstarten R.

Stel de omgevingsvariabelen in voor Databricks Verbinding maken

Stap 5: Code toevoegen

  1. Klik in het hoofdmenu van RStudio Desktop op File New File > R Script>.

  2. Voer de volgende code in het bestand in en sla het bestand op (Bestand > opslaan) als demo.R:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

Stap 6: De code uitvoeren

  1. Klik op de werkbalk voor het demo.R bestand op Bron op RStudio Desktop.

    Het RStudio Desktop-project uitvoeren

  2. In de console worden de eerste vijf rijen van de trips tabel weergegeven.

  3. In de weergave Verbinding maken ions (Weergave > Verbinding maken ionen) kunt u beschikbare catalogi, schema's, tabellen en weergaven verkennen.

    De weergave Verbinding maken ions voor het project

Stap 7: Fouten opsporen in de code

  1. Klik in het demo.R bestand op de rugmarge naast om print(trips, n = 5) een onderbrekingspunt in te stellen.
  2. Klik in de werkbalk voor het demo.R bestand op Bron.
  3. Wanneer de code wordt onderbroken op het onderbrekingspunt, kunt u de variabele controleren in de omgevingsweergave (Omgeving weergeven>).
  4. Klik in het hoofdmenu op Doorgaan voor foutopsporing>.
  5. In de console worden de eerste vijf rijen van de trips tabel weergegeven.

Fouten opsporen in het RStudio Desktop-project