Share via


RStudio op Azure Databricks

U kunt RStudio, een populaire IDE (Integrated Development Environment) voor R, gebruiken om verbinding te maken met Azure Databricks-rekenresources in Azure Databricks-werkruimten vanaf uw lokale ontwikkelcomputer.

RStudio Desktop instellen

RStudio Desktop instellen op uw lokale ontwikkelcomputer:

  1. Download en installeer R 3.3.0 of hoger.
  2. Download en installeer RStudio Desktop.
  3. Start RStudio Desktop.

(Optioneel) Een RStudio-project maken:

  1. Start RStudio Desktop.
  2. Klik op Bestand > Nieuw Project.
  3. Selecteer Nieuwe map > Nieuw project.
  4. Kies een nieuwe map voor het project en klik vervolgens op Project maken.

Een R-script maken:

  1. Klik terwijl het project is geopend op Bestand > Nieuw bestand > R Script.
  2. Klik op Bestand > opslaan als.
  3. Geef het bestand een naam en klik vervolgens op Opslaan.

Verbinding maken met Databricks

Als u RStudio Desktop wilt gebruiken om verbinding te maken met een extern Azure Databricks-cluster of SQL Warehouse vanaf uw lokale ontwikkelcomputer, gebruikt u een ODBC-verbinding en roept u ODBC-pakketfuncties aan voor R.

Notitie

U kunt geen pakketten zoals SparkR of sparklyr gebruiken in dit RStudio Desktop-scenario, tenzij u ook Databricks Connect gebruikt.

Verbinding maken met het externe Azure Databricks-cluster of SQL Warehouse via ODBC voor R:

  1. Haal de waarden voor de serverhostnaam, poort en HTTP-pad op voor uw externe cluster of SQL Warehouse voor een cluster. Deze waarden bevinden zich op het tabblad JDBC/ODBC van geavanceerde opties. Voor een SQL-warehouse bevinden deze waarden zich op het tabblad Verbindingsgegevens.

  2. Haal een Azure Databricks-toegangstoken voor persoonlijk gebruik op.

    Notitie

    Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Om tokens voor service-principals te maken, zie Tokens voor een service-principal beheren.

  3. Installeer en configureer het ODBC-stuurprogramma van Databricks voor uw besturingssysteem.

  4. Stel een ODBC-gegevensbronnaam (DSN) in op uw externe cluster of SQL Warehouse voor Windows, macOS of Linux, op basis van het besturingssysteem van uw lokale computer.

  5. Installeer vanuit de RStudio-console (View > Move Focus to Console) de odbc - en DBI-pakketten van CRAN:

    require(devtools)
    
    install_version(
      package = "odbc",
      repos   = "http://cran.us.r-project.org"
    )
    
    install_version(
      package = "DBI",
      repos   = "http://cran.us.r-project.org"
    )
    
  6. Laad de geïnstalleerde > bestanden en pakketten in uw R-script (DBI):

    library(odbc)
    library(DBI)
    
  7. Roep de ODBC-versie van de dbConnect-functie aan in het DBI pakket, waarbij u het odbc stuurprogramma in het odbc pakket en de ODBC DSN opgeeft die u hebt gemaakt, bijvoorbeeld een ODBC DSN van Databricks.

    conn = dbConnect(
      drv = odbc(),
      dsn = "Databricks"
    )
    
  8. Roep een bewerking aan via de ODBC-DSN, bijvoorbeeld een SELECT instructie via de dbGetQuery-functie in het DBI pakket, waarbij u de naam van de verbindingsvariabele en de SELECT instructie zelf opgeeft, bijvoorbeeld uit een tabel met de naam diamondsdefault in een schema (database):

    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
    

Het volledige R-script is als volgt:

library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Als u het script wilt uitvoeren, klikt u in de bronweergave op Bron. De resultaten voor het voorgaande R-script zijn als volgt:

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31