Databricks-Verbinding maken voor R
Notitie
In dit artikel wordt de integratie met sparklyr
Databricks Verbinding maken voor Databricks Runtime 13.0 en hoger beschreven. Deze integratie wordt niet geleverd door Databricks en wordt niet rechtstreeks ondersteund door Databricks.
Ga naar de Posit Community voor vragen.
Als u problemen wilt melden, gaat u naar de sectie Problemen van de sparklyr
opslagplaats in GitHub.
Zie Databricks Verbinding maken v2 in de sparklyr
documentatie voor meer informatie.
In dit artikel wordt gedemonstreerd hoe u snel aan de slag kunt met Databricks Verbinding maken met behulp van R, sparklyr
en RStudio Desktop.
- Zie Databricks Verbinding maken voor Python voor de Python-versie van dit artikel.
- Zie Databricks Verbinding maken voor Scala voor de Scala-versie van dit artikel.
Met Databricks Verbinding maken kunt u populaire IDE's, zoals RStudio Desktop, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken?
Zelfstudie
In deze zelfstudie wordt gebruikgemaakt van RStudio Desktop en Python 3.10. Als u deze nog niet hebt geïnstalleerd, installeert u R en RStudio Desktop en Python 3.10.
Zie de sectie 'Databricks Verbinding maken' van Spark Verbinding maken en Databricks Verbinding maken v2 op de website voor aanvullende informatie over deze sparklyr
zelfstudie.
Vereisten
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Uw Azure Databricks-doelwerkruimte en -cluster moeten voldoen aan de vereisten voor clusterconfiguratie voor Databricks Verbinding maken.
- U moet de cluster-id beschikbaar hebben. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clusters
enconfiguration
in de URL.
Stap 1: Een persoonlijk toegangstoken maken
Notitie
Databricks Verbinding maken voor R-verificatie ondersteunt momenteel alleen persoonlijke toegangstokens van Azure Databricks.
In deze zelfstudie wordt gebruikgemaakt van persoonlijke toegangstokenverificatie van Azure Databricks voor verificatie met uw Azure Databricks-werkruimte.
Als u al een persoonlijk toegangstoken van Azure Databricks hebt, gaat u verder met stap 2. Als u niet zeker weet of u al een persoonlijk toegangstoken van Azure Databricks hebt, kunt u deze stap volgen zonder dat dit van invloed is op andere persoonlijke toegangstokens van Azure Databricks in uw gebruikersaccount.
Een persoonlijk toegangstoken maken:
- Klik in uw Azure Databricks-werkruimte op de gebruikersnaam van Azure Databricks in de bovenste balk en selecteer vervolgens Instellingen in de vervolgkeuzelijst.
- Klik op Ontwikkelaars.
- Klik naast Access-tokens op Beheren.
- Klik op Nieuw token genereren.
- (Optioneel) Voer een opmerking in waarmee u dit token in de toekomst kunt identificeren en de standaardlevensduur van het token van 90 dagen kunt wijzigen. Als u een token zonder levensduur wilt maken (niet aanbevolen), laat u het vak Levensduur (dagen) leeg (leeg).
- Klik op Genereren.
- Kopieer het weergegeven token naar een veilige locatie en klik vervolgens op Gereed.
Notitie
Zorg ervoor dat u het gekopieerde token op een veilige locatie opslaat. Deel uw gekopieerde token niet met anderen. Als u het gekopieerde token kwijtraakt, kunt u dat token niet opnieuw genereren. In plaats daarvan moet u deze procedure herhalen om een nieuw token te maken. Als u het gekopieerde token kwijtraakt of als u denkt dat het token is aangetast, raadt Databricks u ten zeerste aan dat u dat token onmiddellijk uit uw werkruimte verwijdert door te klikken op het prullenbakpictogram (Intrekken) naast het token op de pagina Toegangstokens .
Als u geen tokens in uw werkruimte kunt maken of gebruiken, kan dit komen doordat uw werkruimtebeheerder tokens heeft uitgeschakeld of u geen toestemming hebt gegeven om tokens te maken of te gebruiken. Neem de werkruimtebeheerder of het volgende weer:
Stap 2: Het project maken
- Start RStudio Desktop.
- Klik in het hoofdmenu op Bestand > nieuw project.
- Selecteer Nieuwe map.
- Selecteer Nieuw project.
- Voer voor mapnaam en project maken als submap van de nieuwe projectmap de naam in en waar u deze nieuwe projectmap wilt maken.
- Selecteer Renv gebruiken met dit project. Als u wordt gevraagd een bijgewerkte versie van het
renv
pakket te installeren, klikt u op Ja. - Klik op Project maken.
Stap 3: Het Databricks-Verbinding maken-pakket en andere afhankelijkheden toevoegen
Klik in het hoofdmenu van RStudio Desktop op Tools > Install Packages.
Laat Installeren ingesteld op Opslagplaats (CRAN).
Voer voor Pakketten de volgende lijst in met pakketten die vereisten zijn voor het Databricks-Verbinding maken-pakket en deze zelfstudie:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Laat Install to Library ingesteld op uw virtuele R-omgeving.
Zorg ervoor dat Afhankelijkheden installeren is geselecteerd.
Klik op Install.
Wanneer u wordt gevraagd in de consoleweergave (Focus verplaatsen naar console weergeven) om door te gaan met de installatie, voert u het volgende in
Y
.> Desparklyr
enpysparklyr
pakketten en de bijbehorende afhankelijkheden worden geïnstalleerd in uw virtuele R-omgeving.Gebruik
reticulate
in het consoledeelvenster python te installeren door de volgende opdracht uit te voeren. (Databricks Verbinding maken voor R vereistreticulate
en Python moet eerst worden geïnstalleerd.) Vervang in de volgende opdracht door3.10
de primaire en secundaire versie van de Python-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze primaire en secundaire versie wilt vinden, raadpleegt u de sectie Systeemomgeving van de releaseopmerkingen voor de Databricks Runtime-versie van uw cluster in de releaseversies en compatibiliteit van Databricks Runtime.reticulate::install_python(version = "3.10")
Installeer in het consolevenster het Databricks-Verbinding maken-pakket door de volgende opdracht uit te voeren. Vervang in de volgende opdracht door
13.3
de Databricks Runtime-versie die is geïnstalleerd op uw Azure Databricks-cluster. Als u deze versie wilt vinden, raadpleegt u op de detailpagina van uw cluster in uw Azure Databricks-werkruimte op het tabblad Configuratie het vak Databricks Runtime-versie .pysparklyr::install_databricks(version = "13.3")
Als u de Databricks Runtime-versie voor uw cluster niet kent of als u deze niet wilt opzoeken, kunt u in plaats daarvan de volgende opdracht uitvoeren en
pysparklyr
het cluster opvragen om de juiste Databricks Runtime-versie te bepalen die u wilt gebruiken:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Als u wilt dat uw project later verbinding maakt met een ander cluster met dezelfde Databricks Runtime-versie dan de versie die u zojuist hebt opgegeven,
pysparklyr
gebruikt u dezelfde Python-omgeving. Als het nieuwe cluster een andere Versie van Databricks Runtime heeft, moet u depysparklyr::install_databricks
opdracht opnieuw uitvoeren met de nieuwe Versie of cluster-id van Databricks Runtime.
Stap 4: Omgevingsvariabelen instellen voor de URL van de werkruimte, het toegangstoken en de cluster-id
Databricks raadt u niet aan om gevoelige waarden in code vast te stellen of te wijzigen, zoals de URL van uw Azure Databricks-werkruimte, het persoonlijke toegangstoken van Azure Databricks of de azure Databricks-cluster-id in uw R-scripts. Sla deze waarden in plaats daarvan afzonderlijk op, bijvoorbeeld in lokale omgevingsvariabelen. In deze zelfstudie wordt gebruikgemaakt van de ingebouwde ondersteuning van RStudio Desktop voor het opslaan van omgevingsvariabelen in een .Renviron
bestand.
Maak een
.Renviron
bestand om de omgevingsvariabelen op te slaan, als dit bestand nog niet bestaat en open dit bestand om te bewerken: voer in de RStudio Desktop-console de volgende opdracht uit:usethis::edit_r_environ()
Voer in het
.Renviron
bestand dat wordt weergegeven (Focus verplaatsen naar bron weergeven>) de volgende inhoud in. Vervang in deze inhoud de volgende tijdelijke aanduidingen:- Vervang
<workspace-url>
bijvoorbeeld door uw URLhttps://adb-1234567890123456.7.azuredatabricks.net
per werkruimte. - Vervang
<personal-access-token>
dit door uw persoonlijke toegangstoken van Azure Databricks uit stap 1. - Vervang
<cluster-id>
door uw cluster-id uit de vereisten van deze zelfstudie.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Vervang
Sla het bestand
.Renviron
op.Laad de omgevingsvariabelen in R: klik in het hoofdmenu op Sessie > opnieuw opstarten R.
Stap 5: Code toevoegen
Klik in het hoofdmenu van RStudio Desktop op File New File > R Script>.
Voer de volgende code in het bestand in en sla het bestand op (Bestand > opslaan) als
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Stap 6: De code uitvoeren
Klik op de werkbalk voor het
demo.R
bestand op Bron op RStudio Desktop.In de console worden de eerste vijf rijen van de
trips
tabel weergegeven.In de weergave Verbinding maken ions (Weergave > Verbinding maken ionen) kunt u beschikbare catalogi, schema's, tabellen en weergaven verkennen.
Stap 7: Fouten opsporen in de code
- Klik in het
demo.R
bestand op de rugmarge naast omprint(trips, n = 5)
een onderbrekingspunt in te stellen. - Klik in de werkbalk voor het
demo.R
bestand op Bron. - Wanneer de code wordt onderbroken op het onderbrekingspunt, kunt u de variabele controleren in de omgevingsweergave (Omgeving weergeven>).
- Klik in het hoofdmenu op Doorgaan voor foutopsporing>.
- In de console worden de eerste vijf rijen van de
trips
tabel weergegeven.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor