R için Databricks Connect
Not
Bu makale, Databricks Runtime 13.0 ve üzeri için Databricks Connect ile tümleştirmeyi kapsar sparklyr
. Bu tümleştirme Ne Databricks tarafından sağlanır ne de Databricks tarafından doğrudan desteklenir.
Sorular için Posit Community'ye gidin.
Sorunları bildirmek için GitHub'daki deponun sparklyr
Sorunlar bölümüne gidin.
Daha fazla bilgi için belgelerdeki Databricks Connect v2 bölümüne sparklyr
bakın.
Bu makalede R, sparklyr
ve RStudio Desktop'ı kullanarak Databricks Connect'i hızlı bir şekilde kullanmaya başlama adımları gösterilmektedir.
- Bu makalenin Python sürümü için bkz . Python için Databricks Connect.
- Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect.
Databricks Connect, RStudio Desktop, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?.
Öğretici
Bu öğreticide RStudio Desktop ve Python 3.10 kullanılmaktadır. Henüz yüklü değilse R ve RStudio Desktop ile Python 3.10'u yükleyin.
Bu öğretici hakkında ek bilgi için web sitesindeki Spark Connect ve Databricks Connect v2'nin sparklyr
"Databricks Connect" bölümüne bakın.
Gereksinimler
Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:
- Hedef Azure Databricks çalışma alanınız ve kümeniz Databricks Connect için Küme yapılandırması gereksinimlerini karşılamalıdır.
- Küme kimliğinizin kullanılabilir olması gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'de ve
configuration
arasındaclusters
karakter dizesini kopyalayın.
1. Adım: Kişisel erişim belirteci oluşturma
Not
R için Databricks Connect kimlik doğrulaması şu anda yalnızca Azure Databricks kişisel erişim belirteçlerini desteklemektedir.
Bu öğreticide, Azure Databricks çalışma alanınızla kimlik doğrulaması yapmak için Azure Databricks kişisel erişim belirteci kimlik doğrulaması gerçekleştirilir.
Zaten bir Azure Databricks kişisel erişim belirtecine sahipseniz 2. Adım'a atlayın. Azure Databricks kişisel erişim belirtecinizin olup olmadığından emin değilseniz, kullanıcı hesabınızdaki diğer Azure Databricks kişisel erişim belirteçlerini etkilemeden bu adımı izleyebilirsiniz.
Kişisel erişim belirteci oluşturmak için:
- Azure Databricks çalışma alanınızda üst çubukta Azure Databricks kullanıcı adınıza tıklayın ve açılan listeden Ayarlar'ı seçin.
- Geliştirici'ye tıklayın.
- Erişim belirteçleri'nin yanındaki Yönet'e tıklayın.
- Yeni belirteç oluştur'a tıklayın.
- (İsteğe bağlı) Gelecekte bu belirteci tanımlamanıza yardımcı olacak bir açıklama girin ve belirtecin varsayılan 90 günlük ömrünü değiştirin. Yaşam süresi olmayan bir belirteç oluşturmak için (önerilmez), Yaşam Süresi (gün) kutusunu boş (boş) bırakın.
- Generate (Oluştur) düğmesine tıklayın.
- Görüntülenen belirteci güvenli bir konuma kopyalayın ve bitti'ye tıklayın.
Not
Kopyalanan belirteci güvenli bir konuma kaydettiğinizden emin olun. Kopyalanan belirtecinizi başkalarıyla paylaşmayın. Kopyalanan belirteci kaybederseniz, tam olarak aynı belirteci yeniden oluşturamazsınız. Bunun yerine, yeni bir belirteç oluşturmak için bu yordamı yinelemeniz gerekir. Kopyalanan belirteci kaybederseniz veya belirtecin gizliliğinin ihlal edildiğini düşünüyorsanız Databricks, Erişim belirteçleri sayfasındaki belirtecin yanındaki çöp kutusu (İptal Et) simgesine tıklayarak bu belirteci çalışma alanınızdan hemen silmenizi kesinlikle önerir.
Çalışma alanınızda belirteç oluşturamıyor veya kullanamıyorsanız, bunun nedeni çalışma alanı yöneticinizin belirteçleri devre dışı bırakmış olması veya size belirteç oluşturma veya kullanma izni vermemiş olması olabilir. Çalışma alanı yöneticinize veya aşağıdaki konulara bakın:
2. Adım: Projeyi oluşturma
- RStudio Desktop'ı başlatın.
- Ana menüde Dosya Yeni Proje'ye tıklayın>.
- Yeni Dizin'i seçin.
- Yeni Proje'yi seçin.
- Dizin adı ve Alt dizini olarak proje oluştur için, yeni proje dizininin adını ve bu yeni proje dizininin nerede oluşturulacağını girin.
- Bu projeyle renv kullan'ı seçin. Paketin güncelleştirilmiş bir sürümünü
renv
yüklemeniz istenirse Evet'e tıklayın. - Proje Oluştur'a tıklayın.
3. Adım: Databricks Connect paketini ve diğer bağımlılıkları ekleme
RStudio Desktop ana menüsünde Araçlar > Paketleri Yükle'ye tıklayın.
Yükleme'yi kümeden Depo (CRAN) olarak bırakın.
Paketler için Databricks Connect paketinin önkoşulları olan paketlerin listesini ve bu öğreticiyi girin:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Yükle'yi Kitaplık olarak R sanal ortamınıza ayarlanmış olarak bırakın.
Bağımlılıkları yükle'nin seçili olduğundan emin olun.
Yükle'ye tıklayın.
Konsol görünümünde (Odağı Konsola Taşımayı Görüntüle>) yükleme işlemine devam etmek isteyip istemediğiniz sorulduğunda girin
Y
.sparklyr
vepysparklyr
paketleri ve bağımlılıkları R sanal ortamınıza yüklenir.Konsol bölmesinde, aşağıdaki komutu çalıştırarak Python'ı yüklemek için kullanın
reticulate
. (R için Databricks Connect önce Python'ın yüklenmesini gerektirirreticulate
.) Aşağıdaki komutta değerini Azure Databricks kümenizde yüklü olan Python sürümünün birincil ve ikincil sürümüyle değiştirin3.10
. Bu ana ve ikincil sürümü bulmak için, Databricks Runtime sürüm notları sürümleri ve uyumluluğunda kümenizin Databricks Runtime sürümünün sürüm notlarının "Sistem ortamı" bölümüne bakın.reticulate::install_python(version = "3.10")
Konsol bölmesinde, aşağıdaki komutu çalıştırarak Databricks Connect paketini yükleyin. Aşağıdaki komutta değerini Azure Databricks kümenizde yüklü olan Databricks Runtime sürümüyle değiştirin
13.3
. Bu sürümü bulmak için, Azure Databricks çalışma alanınızdaki kümenizin ayrıntılar sayfasında, Yapılandırma sekmesinde Databricks Runtime Sürümü kutusuna bakın.pysparklyr::install_databricks(version = "13.3")
Kümeniz için Databricks Runtime sürümünü bilmiyorsanız veya aramak istemiyorsanız, bunun yerine aşağıdaki komutu çalıştırabilirsiniz ve
pysparklyr
kullanılacak doğru Databricks Runtime sürümünü belirlemek için kümeyi sorgularsınız:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Projenizin daha sonra az önce belirttiğinizden aynı Databricks Runtime sürümüne sahip farklı bir kümeye bağlanmasını istiyorsanız,
pysparklyr
aynı Python ortamını kullanır. Yeni küme farklı bir Databricks Runtime sürümüne sahipse, komutu yeni Databricks Runtime sürümü veya küme kimliğiyle yeniden çalıştırmanızpysparklyr::install_databricks
gerekir.
4. Adım: Çalışma alanı URL'si, erişim belirteci ve küme kimliği için ortam değişkenlerini ayarlama
Databricks, R betiklerinize Azure Databricks çalışma alanı URL'niz, Azure Databricks kişisel erişim belirteci veya Azure Databricks küme kimliği gibi hassas veya değişen değerleri sabit kodla yazmanızı önermez. Bunun yerine, bu değerleri ayrı ayrı depolayın, örneğin yerel ortam değişkenlerinde. Bu öğreticide RStudio Desktop'ın ortam değişkenlerini bir .Renviron
dosyada depolamaya yönelik yerleşik desteği kullanılmaktadır.
Bu dosya yoksa ortam değişkenlerini depolamak için bir
.Renviron
dosya oluşturun ve bu dosyayı düzenlemek üzere açın: RStudio Masaüstü Konsolu'nda aşağıdaki komutu çalıştırın:usethis::edit_r_environ()
Görüntülenen dosyaya
.Renviron
(Odağı Kaynağa Taşı'yı Görüntüle>) aşağıdaki içeriği girin. Bu içerikte aşağıdaki yer tutucuları değiştirin:- değerini çalışma alanı başına URL'nizle değiştirin
<workspace-url>
, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net
. - değerini 1. Adım'dan Azure Databricks kişisel erişim belirtecinizle değiştirin
<personal-access-token>
. - değerini bu öğreticinin gereksinimlerinden küme kimliğiniz ile değiştirin
<cluster-id>
.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- değerini çalışma alanı başına URL'nizle değiştirin
.Renviron
dosyasını kaydedin.Ortam değişkenlerini R'ye yükleyin: Ana menüde Oturum > Yeniden Başlat R'ye tıklayın.
5. Adım: Kod ekleme
RStudio Desktop ana menüsünde Dosya Yeni Dosya R Betiği'ne tıklayın>.>
Dosyaya aşağıdaki kodu girin ve dosyayı (Dosya > Kaydetme) olarak
demo.R
kaydedin:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
6. Adım: Kodu çalıştırma
RStudio Desktop'ta, dosyanın araç çubuğunda
demo.R
Kaynak'a tıklayın.Konsol'da tablonun ilk beş satırı
trips
görüntülenir.Bağlantılar görünümünde (Bağlantıları Göster Görünümü>) kullanılabilir katalogları, şemaları, tabloları ve görünümleri keşfedebilirsiniz.
7. Adım: Kodda hata ayıklama
- Dosyada
demo.R
, kesme noktası ayarlamak için yanındaki oluk simgesineprint(trips, n = 5)
tıklayın. - Dosyanın araç çubuğunda
demo.R
Kaynak'a tıklayın. - Kod kesme noktasında çalışırken duraklatıldığında, değişkeni Ortam görünümünde (Ortamı Göster Görünümü>) inceleyebilirsiniz.
- Ana menüde Hata Ayıklama > Devam'a tıklayın.
- Konsol'da tablonun ilk beş satırı
trips
görüntülenir.