RStudio di Azure Databricks

Anda dapat menggunakan RStudio, lingkungan pengembangan terintegrasi (IDE) populer untuk R, untuk terhubung ke sumber daya komputasi Azure Databricks dalam ruang kerja Azure Databricks dari komputer pengembangan lokal Anda.

Menyiapkan RStudio Desktop

Untuk menyiapkan RStudio Desktop di komputer pengembangan lokal Anda:

  1. Unduh dan instal R 3.3.0 atau yang lebih tinggi.
  2. Unduh dan instal RStudio Desktop.
  3. Mulai RStudio Desktop.

(Opsional) Untuk membuat proyek RStudio:

  1. Mulai RStudio Desktop.
  2. Klik File > Proyek Baru.
  3. Pilih Direktori Baru >Proyek Baru.
  4. Pilih direktori baru untuk proyek, lalu klik Buat Proyek.

Untuk membuat skrip R:

  1. Dengan proyek terbuka, klik File > File Baru > R Script.
  2. Klik File > Simpan Sebagai.
  3. Beri nama file, lalu klik Simpan.

Menghubungkan ke Databricks

Untuk menggunakan RStudio Desktop untuk menyambungkan ke kluster Azure Databricks jarak jauh atau gudang SQL dari komputer pengembangan lokal Anda, gunakan koneksi ODBC dan panggil fungsi paket ODBC untuk R.

Catatan

Anda tidak dapat menggunakan paket seperti SparkR atau sparklyr dalam skenario RStudio Desktop ini, kecuali Anda juga menggunakan Databricks Connect.

Untuk menyambungkan ke kluster Azure Databricks jarak jauh atau gudang SQL melalui ODBC untuk R:

  1. Dapatkan nilai nama host Server, Port, dan jalur HTTP untuk kluster jarak jauh atau gudang SQL Anda Untuk kluster, nilai-nilai ini ada di tab JDBC/ODBC dari opsi Tingkat Lanjut. Untuk gudang SQL, nilai-nilai ini ada di tab detail Koneksi .

  2. Dapatkan token akses pribadi Azure Databricks .

    Catatan

    Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan, bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

  3. Instal dan konfigurasikan driver Databricks ODBC untuk sistem operasi Anda.

  4. Siapkan Nama Sumber Data (DSN) ODBC ke kluster jarak jauh atau gudang SQL untuk Windows, macOS, atau Linux, berdasarkan sistem operasi komputer lokal Anda.

  5. Dari konsol RStudio (Lihat > Pindahkan Fokus ke Konsol), instal paket odbc dan DBI dari CRAN:

    require(devtools)
    
    install_version(
      package = "odbc",
      repos   = "http://cran.us.r-project.org"
    )
    
    install_version(
      package = "DBI",
      repos   = "http://cran.us.r-project.org"
    )
    
  6. Di skrip R Anda (Lihat > Pindahkan Fokus ke Sumber), muat paket-paket yang sudah terinstal odbc dan DBI:

    library(odbc)
    library(DBI)
    
  7. Panggil versi ODBC dari fungsi dbConnect dalam paket DBI, menentukan driver odbc dalam paket odbc dan ODBC DSN yang Anda buat, misalnya, ODBC DSN dari Databricks.

    conn = dbConnect(
      drv = odbc(),
      dsn = "Databricks"
    )
    
  8. Panggil operasi melalui ODBC DSN, misalnya pernyataan SELECT melalui fungsi dbGetQuery dalam paket DBI, menentukan nama variabel koneksi dan pernyataan SELECT sendiri, misalnya dari tabel bernama diamonds dalam skema (database) bernama default:

    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
    

Skrip R lengkap adalah sebagai berikut:

library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Untuk menjalankan skrip, dalam tampilan sumber, klik Sumber. Hasil untuk skrip R sebelumnya adalah sebagai berikut:

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31