Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Not
Bu makale, Databricks Runtime 13.0 ve üzeri için Databricks Connect ile tümleştirmeyi kapsar sparklyr . Bu tümleştirme Ne Databricks tarafından sağlanır ne de Databricks tarafından doğrudan desteklenir.
Sorular için Posit Community'ye gidin.
Sorunları bildirmek için GitHub'daki deposunun sparklyr bölümüne gidin.
Daha fazla bilgi için belgelendirmede, Databricks Connect v2 bölümüne bakın.
Databricks Connect, RStudio Desktop, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelere bağlamanızı sağlar. Bkz. Databricks Connect.
Not
Spark MLlib RDD kullandığından, Databricks Connect yalnızca DataFrame API'sini desteklediğinden Databricks Connect' in Apache Spark MLlib ile uyumluluğu sınırlıdır. Sparklyr'ın Tüm Spark MLlib işlevlerini kullanmak için Databricks not defterlerini veya db_replbrickster paketinin işlevini kullanın.
Bu makalede, sparklyr ve RStudio Desktopkullanarak R için Databricks Connect'i hızlı bir şekilde kullanmaya başlama adımları gösterilmektedir.
- Python için Databricks Connect hakkında bilgi için Python için Databricks Connect'e bakın.
- Databricks Connect for Scala hakkında daha fazla bilgi için bkz. Scala için Databricks Connect.
Eğitim
Aşağıdaki öğreticide RStudio'da bir proje oluşturacak, Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyip yapılandıracak ve RStudio'dan Databricks çalışma alanınızda işlem üzerinde basit kod çalıştıracaksınız. Bu öğretici hakkında ek bilgi için web sitesindeki Spark Connect ve Databricks Connect v2'nin sparklyr "Databricks Connect" bölümüne bakın.
Bu öğreticide RStudio Desktop ve Python 3.10 kullanılmaktadır. Henüz yüklü değilse, R ve RStudio Desktop ile Python 3.10'u yükleyin.
Gereksinimler
Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:
- Hedef Azure Databricks çalışma alanınız ve kümeniz, Databricks Connect için Compute yapılandırması gereksinimlerini karşılamalıdır.
- Küme kimliğinizin kullanılabilir olması gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'deki
clustersveconfigurationarasındaki karakter dizesini kopyalayın.
1. Adım: Kişisel erişim belirteci oluşturma
Not
R için Databricks Connect kimlik doğrulaması şu anda yalnızca Azure Databricks kişisel erişim belirteçlerini destekler.
Bu öğreticide, Azure Databricks çalışma alanınızla kimlik doğrulaması yapmak için Azure Databricks kişisel erişim tokenı kimlik doğrulaması kullanılır.
Zaten bir Azure Databricks kişisel erişim belirtecine sahipseniz 2. Adım'a atlayın. Azure Databricks kişisel erişim belirtecinizin olup olmadığından emin değilseniz, kullanıcı hesabınızdaki diğer Azure Databricks kişisel erişim belirteçlerini etkilemeden bu adımı izleyebilirsiniz.
Kişisel erişim belirteci oluşturmak için Çalışma alanı kullanıcıları için kişisel erişim belirteçleri oluşturma bölümünde yer alan adımları izleyin.
2. Adım: Projeyi oluşturma
- RStudio Desktop'ı başlatın.
- Ana menüde Dosya > Yeni Proje'ye tıklayın.
- Yeni Dizinseçin.
- Yeni Proje öğesini seçin.
- Dizin adı ve Alt dizini olarak proje oluştur için, yeni proje dizininin adını ve bu yeni proje dizininin nerede oluşturulacağını girin.
-
Bu projede renv kullanmayı seçin. Paketin güncelleştirilmiş bir sürümünü
renvyüklemeniz istenirse Evet'e tıklayın. - Project oluştur'a tıklayın.
3. Adım: Databricks Connect paketini ve diğer bağımlılıkları ekleme
RStudio Desktop ana menüsünde Araçlar > Paketleri Yükle'ye tıklayın.
'den Yükle'yi Depo (CRAN)şeklinde bırakın.
Paketleriiçin, Databricks Connect paketinin ve bu öğreticinin önkoşulu olan paketlerin aşağıdaki listesini sunun:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyrKütüphaneye Yükle R sanal ortamınıza ayarlı bırakın.
Bağımlılıkları yükle'nin seçili olduğundan emin olun.
Yükle'ye tıklayın.
Konsol görünümünden devam etmenizin istendiği zaman (), > girin.
sparklyrvepysparklyrpaketleri ve bağımlılıkları R sanal ortamınıza yüklenir.Console bölmesinde, aşağıdaki komutu çalıştırarak Python yüklemek için
reticulatekullanın. (R için Databricks Connect, öncereticulateve Python yüklenmesini gerektirir.) Aşağıdaki komutta,3.10değerini Azure Databricks kümenizde yüklü olan Python sürümünün birincil ve ikincil sürümüyle değiştirin. Bu büyük ve küçük sürümü bulmak için, Databricks Runtime sürüm notları sürümleri ve uyumluluğu'ndaki kümenizin Databricks Runtime sürümüne ait sürüm notlarının "Sistem ortamı" bölümüne bakın.reticulate::install_python(version = "3.10")Konsol bölmesinde, aşağıdaki komutu çalıştırarak Databricks Connect paketini yükleyin. Aşağıdaki komutta
13.3değerini Azure Databricks kümenizde yüklü olan Databricks Runtime sürümüyle değiştirin. Bu sürümü bulmak için, kümenizin Azure Databricks çalışma alanınızdaki ayrıntılar sayfasında, Configuration sekmesinde Databricks Runtime Version kutusuna bakın.pysparklyr::install_databricks(version = "13.3")Kümeniz için Databricks Runtime sürümünü bilmiyorsanız veya aramak istemiyorsanız, bunun yerine aşağıdaki komutu çalıştırabilirsiniz ve
pysparklyrkullanılacak doğru Databricks Runtime sürümünü belirlemek için kümeyi sorgularsınız:pysparklyr::install_databricks(cluster_id = "<cluster-id>")Projenizin daha sonra az önce belirttiğinizden aynı Databricks Runtime sürümüne sahip farklı bir kümeye bağlanmasını istiyorsanız,
pysparklyraynı Python ortamını kullanır. Yeni küme farklı bir Databricks Runtime sürümüne sahipse, komutu yeni Databricks Runtime sürümü veya küme kimliğiyle yeniden çalıştırmanızpysparklyr::install_databricksgerekir.
4. Adım: Çalışma alanı URL'si, erişim belirteci ve küme kimliği için ortam değişkenlerini ayarlama
Databricks, R betiklerinize Azure Databricks çalışma alanı URL'niz, Azure Databricks kişisel erişim belirteci veya Azure Databricks küme kimliği gibi hassas veya değişen değerleri sabit kodla yazmanızı önermez. Bunun yerine, bu değerleri ayrı ayrı depolayın, örneğin yerel ortam değişkenlerinde. Bu öğreticide RStudio Desktop'ın ortam değişkenlerini bir .Renviron dosyada depolamaya yönelik yerleşik desteği kullanılmaktadır.
Bu dosya yoksa ortam değişkenlerini depolamak için bir
.Renvirondosya oluşturun ve bu dosyayı düzenlemek üzere açın: RStudio Masaüstü Konsolu'nda aşağıdaki komutu çalıştırın:usethis::edit_r_environ()Görüntülenen dosyada
.Renviron(Kaynağa Odaklanmayı Taşı>), aşağıdaki içeriği girin. Bu içerikte aşağıdaki yer tutucuları değiştirin:-
<workspace-url>'yi çalışma alanı başına URL ile değiştirin, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net. - 1. Adım'da
<personal-access-token>yerine Azure Databricks kişisel erişim belirtecinizi yazın. - Bu öğreticinin gereksinimlerinden küme kimliğinizi
<cluster-id>ile değiştirin.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>-
.Renvirondosyasını kaydedin.Ortam değişkenlerini R'ye yükleyin: Ana menüde Oturum > Yeniden Başlat R'ye tıklayın.
için ortam değişkenlerini ayarlama
5. Adım: Kod ekleme
RStudio Desktop ana menüsünde
Dosya Yeni Dosya R Betiği 'ne tıklayın. Dosyaya aşağıdaki kodu girin ve dosyayı (Dosya > Kaydetme) olarak
demo.Rkaydedin:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
6. Adım: Kodu çalıştırma
RStudio Desktop'ta, dosyanın araç çubuğunda
demo.RKaynak'a tıklayın.
Konsoluiçinde,
tripstablosunun ilk beş satırı görüntülenir.Bağlantılar görünümünde (Görünüm > Bağlantıları Göster), kullanılabilir katalogları, şemaları, tabloları ve görünümleri keşfedebilirsiniz.
için Bağlantılar görünümü
7. Adım: Kodda hata ayıklama
-
demo.Rdosyasında, kesme noktası ayarlamak içinprint(trips, n = 5)yanındaki oluk simgesine tıklayın. - Dosyanın araç çubuğunda
demo.RKaynak'a tıklayın. - Kod, kesme noktasında çalışmayı duraklattığında, Ortam görünümünde (Görünüm> Ortamı Göster) değişkeni inceleyebilirsiniz.
- Ana menüde Debug > Devam'a tıklayın.
-
Konsoluiçinde,
tripstablosunun ilk beş satırı görüntülenir.