Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Catatan
Artikel ini membahas integrasi sparklyr dengan Databricks Connect untuk Databricks Runtime 13.0 dan yang lebih baru. Integrasi ini tidak disediakan oleh Databricks atau didukung langsung oleh Databricks.
Untuk pertanyaan, buka Posit Community.
Untuk melaporkan masalah, buka bagian Issues dari repositori sparklyr di GitHub.
Untuk informasi selengkapnya, lihat Databricks Connect v2 dalam sparklyr dokumentasi.
Databricks Connect memungkinkan Anda menyambungkan IDE populer seperti RStudio Desktop, server notebook, dan aplikasi kustom lainnya ke kluster Azure Databricks. Lihat Databricks Connect.
Catatan
Databricks Connect memiliki kompatibilitas terbatas dengan Apache Spark MLlib, karena Spark MLlib menggunakan RDD, sementara Databricks Connect hanya mendukung API DataFrame. Untuk menggunakan semua fungsi Spark MLlib dari sparklyr, gunakan notebook Databricks atau fungsi db_replpaket brickster.
Artikel ini menunjukkan cara cepat mulai menggunakan Databricks Connect untuk R menggunakan sparklyr dan RStudio Desktop.
- Untuk Databricks Connect untuk Python, lihat Databricks Connect untuk Python.
- Untuk Databricks Connect untuk Scala, lihat Databricks Connect for Scala.
Panduan
Dalam tutorial berikut, Anda membuat proyek di RStudio, menginstal dan mengonfigurasi Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas, dan menjalankan kode sederhana pada komputasi di ruang kerja Databricks Anda dari RStudio. Untuk informasi tambahan tentang tutorial ini, lihat bagian "Databricks Connect" dari Spark Connect, dan Databricks Connect v2 di sparklyr situs web.
Tutorial ini menggunakan RStudio Desktop dan Python 3.10. Jika Anda belum menginstalnya, install R dan RStudio Desktop dan Python 3.10.
Persyaratan
Untuk menyelesaikan tutorial ini, Anda harus memenuhi persyaratan berikut:
- Ruang kerja dan kluster Azure Databricks target Anda harus memenuhi persyaratan untuk konfigurasi komputasi untuk Databricks Connect.
- Anda harus memiliki ID kluster Anda yang tersedia. Untuk mendapatkan ID kluster Anda, di ruang kerja Anda, klik Komputasi di bar samping, lalu klik nama kluster Anda. Di bilah alamat browser web Anda, salin string karakter antara
clustersdanconfigurationdi URL.
Langkah 1: Membuat token akses pribadi
Catatan
Databricks Connect untuk autentikasi R saat ini hanya mendukung token akses pribadi Azure Databricks.
Tutorial ini menggunakan autentikasi token akses Azure Databricks personal untuk mengautentikasi dengan ruang kerja Azure Databricks Anda.
Jika Anda sudah memiliki token akses pribadi Azure Databricks, lewati ke Langkah 2. Jika Anda tidak yakin apakah Anda sudah memiliki token akses pribadi Azure Databricks, Anda dapat mengikuti langkah ini tanpa memengaruhi token akses pribadi Azure Databricks lainnya di akun pengguna Anda.
Untuk membuat token akses pribadi, ikuti langkah-langkah dalam Membuat token akses pribadi untuk pengguna ruang kerja.
Langkah 2: Membuat proyek
- Mulai RStudio Desktop.
- Pada menu utama, klik File > New Project.
- Pilih Direktori Baru.
- Pilih Proyek Baru.
- Untuk Nama direktori dan Buat proyek sebagai subdirektori, masukkan nama direktori proyek baru dan tempat untuk membuat direktori proyek baru ini.
- Pilih Gunakan renv dengan proyek ini. Jika diminta untuk menginstal versi paket yang
renvdiperbarui, klik Ya. - Klik Buat Proyek.
Langkah 3: Tambahkan paket Databricks Connect dan dependensi lainnya
Pada menu utama RStudio Desktop, klik Alat > Instal Paket.
Biarkan Instal dari diatur ke Repositori (CRAN).
Untuk Paket, masukkan daftar paket berikut yang merupakan prasyarat untuk paket Databricks Connect dan tutorial ini:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyrBiarkan Instal ke Pustaka dibiarkan diatur ke lingkungan virtual R Anda.
Pastikan bahwa Instal dependensi terpilih.
Klik Pasang.
Saat Anda diminta dalam tampilan Konsol (Lihat > Pindahkan Fokus ke Konsol) untuk melanjutkan penginstalan, masukkan
Y. Paketsparklyrdanpysparklyrdan dependensinya diinstal di lingkungan virtual R Anda.Di panel Console, gunakan
reticulateuntuk menginstal Python dengan menjalankan perintah berikut. (Databricks Connect for R memerlukanreticulatedan Python untuk diinstal terlebih dahulu.) Dalam perintah berikut, ganti3.10dengan versi utama dan minor dari versi Python yang diinstal pada kluster Azure Databricks Anda. Untuk menemukan versi utama dan minor ini, lihat bagian "Lingkungan sistem" dari catatan rilis untuk versi Databricks Runtime kluster Anda di versi dan kompatibilitas catatan rilis Databricks Runtime.reticulate::install_python(version = "3.10")Di panel Konsol , instal paket Databricks Connect dengan menjalankan perintah berikut. Dalam perintah berikut, ganti
13.3dengan versi Databricks Runtime yang diinstal pada kluster Azure Databricks Anda. Untuk menemukan versi ini, pada halaman detail kluster Anda di ruang kerja Azure Databricks Anda, pada tab Configuration, lihat kotak Databricks Runtime.pysparklyr::install_databricks(version = "13.3")Jika Anda tidak tahu versi Databricks Runtime untuk kluster Anda atau Anda tidak ingin mencarinya, Anda dapat menjalankan perintah berikut sebagai gantinya, dan
pysparklyrakan meminta kluster untuk menentukan versi Databricks Runtime yang benar untuk digunakan:pysparklyr::install_databricks(cluster_id = "<cluster-id>")Jika Anda ingin proyek Anda terhubung nanti ke kluster lain yang memiliki versi Databricks Runtime yang sama dari yang baru saja Anda tentukan,
pysparklyrakan menggunakan lingkungan Python yang sama. Jika kluster baru memiliki versi Databricks Runtime yang berbeda, Anda harus menjalankanpysparklyr::install_databricksperintah lagi dengan versi Databricks Runtime atau ID kluster baru.
Langkah 4: Atur variabel lingkungan untuk URL ruang kerja, token akses, dan ID kluster
Databricks tidak menyarankan Agar Anda melakukan hard-code sensitif atau mengubah nilai seperti URL ruang kerja Azure Databricks, Azure Databricks token akses pribadi, atau Azure Databricks ID kluster ke dalam skrip R Anda. Sebagai gantinya, simpan nilai-nilai ini secara terpisah, misalnya dalam variabel lingkungan lokal. Tutorial ini menggunakan dukungan bawaan RStudio Desktop untuk menyimpan variabel lingkungan dalam .Renviron file.
Buat
.Renvironfile untuk menyimpan variabel lingkungan, jika file ini belum ada, lalu buka file ini untuk pengeditan: di Konsol Desktop RStudio, jalankan perintah berikut:usethis::edit_r_environ().RenvironDalam file yang muncul (Lihat > Pindahkan Fokus ke Sumber), masukkan konten berikut. Dalam konten ini, ganti tempat penampung berikut:- Ganti
<workspace-url>dengan URL per ruang kerja Anda, misalnyahttps://adb-1234567890123456.7.azuredatabricks.net. - Ganti
<personal-access-token>dengan token akses pribadi Azure Databricks Anda dari Langkah 1. - Ganti
<cluster-id>dengan ID kluster Anda dari persyaratan tutorial ini.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>- Ganti
Simpan file
.Renviron.Muat variabel lingkungan ke R: pada menu utama, klik Mulai Ulang Sesi > R.
Langkah 5: Tambahkan kode
Pada menu utama RStudio Desktop, klik File > New File > R Script.
Masukkan kode berikut ke dalam file lalu simpan file (> File) sebagai
demo.R:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Langkah 6: Jalankan kode
Pada RStudio Desktop, di toolbar untuk
demo.Rfile, klik Sumber.
Di Konsol, lima baris
tripspertama tabel muncul.Dalam tampilan Koneksi (Tampilkan > Perlihatkan Koneksi), Anda dapat menjelajahi katalog, skema, tabel, dan tampilan yang tersedia.
Langkah 7: Debug kode
- Dalam
demo.Rfile, klik pada gutter di sampingprint(trips, n = 5)untuk mengatur titik henti. - Di toolbar untuk
demo.Rfile, klik Sumber. - Saat kode dijeda berjalan di titik henti, Anda dapat memeriksa variabel dalam tampilan Lingkungan (Lihat > Tampilkan Lingkungan).
- Pada menu utama, klik Debug > Lanjutkan.
-
Di Konsol, lima baris
tripspertama tabel muncul.