R için Databricks Connect

Not

Bu makale, Databricks Runtime 13.0 ve üzeri için Databricks Connect ile tümleştirmeyi kapsar sparklyr . Bu tümleştirme Ne Databricks tarafından sağlanır ne de Databricks tarafından doğrudan desteklenir.

Sorular için Posit Community'ye gidin.

Sorunları bildirmek için GitHub'daki deposunun sparklyr bölümüne gidin.

Daha fazla bilgi için belgelendirmede, Databricks Connect v2 bölümüne bakın.

Databricks Connect, RStudio Desktop, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelere bağlamanızı sağlar. Bkz. Databricks Connect.

Not

Spark MLlib RDD kullandığından, Databricks Connect yalnızca DataFrame API'sini desteklediğinden Databricks Connect' in Apache Spark MLlib ile uyumluluğu sınırlıdır. Sparklyr'ın Tüm Spark MLlib işlevlerini kullanmak için Databricks not defterlerini veya db_replbrickster paketinin işlevini kullanın.

Bu makalede, sparklyr ve RStudio Desktopkullanarak R için Databricks Connect'i hızlı bir şekilde kullanmaya başlama adımları gösterilmektedir.

Eğitim

Aşağıdaki öğreticide RStudio'da bir proje oluşturacak, Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyip yapılandıracak ve RStudio'dan Databricks çalışma alanınızda işlem üzerinde basit kod çalıştıracaksınız. Bu öğretici hakkında ek bilgi için web sitesindeki Spark Connect ve Databricks Connect v2'nin sparklyr "Databricks Connect" bölümüne bakın.

Bu öğreticide RStudio Desktop ve Python 3.10 kullanılmaktadır. Henüz yüklü değilse, R ve RStudio Desktop ile Python 3.10'u yükleyin.

Gereksinimler

Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:

  • Hedef Azure Databricks çalışma alanınız ve kümeniz, Databricks Connect için Compute yapılandırması gereksinimlerini karşılamalıdır.
  • Küme kimliğinizin kullanılabilir olması gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'deki clusters ve configuration arasındaki karakter dizesini kopyalayın.

1. Adım: Kişisel erişim belirteci oluşturma

Not

R için Databricks Connect kimlik doğrulaması şu anda yalnızca Azure Databricks kişisel erişim belirteçlerini destekler.

Bu öğreticide, Azure Databricks çalışma alanınızla kimlik doğrulaması yapmak için Azure Databricks kişisel erişim tokenı kimlik doğrulaması kullanılır.

Zaten bir Azure Databricks kişisel erişim belirtecine sahipseniz 2. Adım'a atlayın. Azure Databricks kişisel erişim belirtecinizin olup olmadığından emin değilseniz, kullanıcı hesabınızdaki diğer Azure Databricks kişisel erişim belirteçlerini etkilemeden bu adımı izleyebilirsiniz.

Kişisel erişim belirteci oluşturmak için Çalışma alanı kullanıcıları için kişisel erişim belirteçleri oluşturma bölümünde yer alan adımları izleyin.

2. Adım: Projeyi oluşturma

  1. RStudio Desktop'ı başlatın.
  2. Ana menüde Dosya > Yeni Proje'ye tıklayın.
  3. Yeni Dizinseçin.
  4. Yeni Proje öğesini seçin.
  5. Dizin adı ve Alt dizini olarak proje oluştur için, yeni proje dizininin adını ve bu yeni proje dizininin nerede oluşturulacağını girin.
  6. Bu projede renv kullanmayı seçin. Paketin güncelleştirilmiş bir sürümünü renv yüklemeniz istenirse Evet'e tıklayın.
  7. Project oluştur'a tıklayın.

RStudio Desktop projesini oluşturma

3. Adım: Databricks Connect paketini ve diğer bağımlılıkları ekleme

  1. RStudio Desktop ana menüsünde Araçlar > Paketleri Yükle'ye tıklayın.

  2. 'den Yükle'yi Depo (CRAN)şeklinde bırakın.

  3. Paketleriiçin, Databricks Connect paketinin ve bu öğreticinin önkoşulu olan paketlerin aşağıdaki listesini sunun:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Kütüphaneye Yükle R sanal ortamınıza ayarlı bırakın.

  5. Bağımlılıkları yükle'nin seçili olduğundan emin olun.

  6. Yükle'ye tıklayın.

Databricks Connect paket bağımlılıklarını yükleme

  1. Konsol görünümünden devam etmenizin istendiği zaman (), > girin. sparklyr ve pysparklyr paketleri ve bağımlılıkları R sanal ortamınıza yüklenir.

  2. Console bölmesinde, aşağıdaki komutu çalıştırarak Python yüklemek için reticulate kullanın. (R için Databricks Connect, önce reticulate ve Python yüklenmesini gerektirir.) Aşağıdaki komutta, 3.10 değerini Azure Databricks kümenizde yüklü olan Python sürümünün birincil ve ikincil sürümüyle değiştirin. Bu büyük ve küçük sürümü bulmak için, Databricks Runtime sürüm notları sürümleri ve uyumluluğu'ndaki kümenizin Databricks Runtime sürümüne ait sürüm notlarının "Sistem ortamı" bölümüne bakın.

    reticulate::install_python(version = "3.10")
    
  3. Konsol bölmesinde, aşağıdaki komutu çalıştırarak Databricks Connect paketini yükleyin. Aşağıdaki komutta 13.3 değerini Azure Databricks kümenizde yüklü olan Databricks Runtime sürümüyle değiştirin. Bu sürümü bulmak için, kümenizin Azure Databricks çalışma alanınızdaki ayrıntılar sayfasında, Configuration sekmesinde Databricks Runtime Version kutusuna bakın.

    pysparklyr::install_databricks(version = "13.3")
    

    Kümeniz için Databricks Runtime sürümünü bilmiyorsanız veya aramak istemiyorsanız, bunun yerine aşağıdaki komutu çalıştırabilirsiniz ve pysparklyr kullanılacak doğru Databricks Runtime sürümünü belirlemek için kümeyi sorgularsınız:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Projenizin daha sonra az önce belirttiğinizden aynı Databricks Runtime sürümüne sahip farklı bir kümeye bağlanmasını istiyorsanız, pysparklyr aynı Python ortamını kullanır. Yeni küme farklı bir Databricks Runtime sürümüne sahipse, komutu yeni Databricks Runtime sürümü veya küme kimliğiyle yeniden çalıştırmanız pysparklyr::install_databricks gerekir.

4. Adım: Çalışma alanı URL'si, erişim belirteci ve küme kimliği için ortam değişkenlerini ayarlama

Databricks, R betiklerinize Azure Databricks çalışma alanı URL'niz, Azure Databricks kişisel erişim belirteci veya Azure Databricks küme kimliği gibi hassas veya değişen değerleri sabit kodla yazmanızı önermez. Bunun yerine, bu değerleri ayrı ayrı depolayın, örneğin yerel ortam değişkenlerinde. Bu öğreticide RStudio Desktop'ın ortam değişkenlerini bir .Renviron dosyada depolamaya yönelik yerleşik desteği kullanılmaktadır.

  1. Bu dosya yoksa ortam değişkenlerini depolamak için bir .Renviron dosya oluşturun ve bu dosyayı düzenlemek üzere açın: RStudio Masaüstü Konsolu'nda aşağıdaki komutu çalıştırın:

    usethis::edit_r_environ()
    
  2. Görüntülenen dosyada .Renviron (Kaynağa Odaklanmayı Taşı>), aşağıdaki içeriği girin. Bu içerikte aşağıdaki yer tutucuları değiştirin:

    • <workspace-url>'yi çalışma alanı başına URL ile değiştirin, örneğin https://adb-1234567890123456.7.azuredatabricks.net.
    • 1. Adım'da <personal-access-token> yerine Azure Databricks kişisel erişim belirtecinizi yazın.
    • Bu öğreticinin gereksinimlerinden küme kimliğinizi <cluster-id> ile değiştirin.
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. .Renviron dosyasını kaydedin.

  4. Ortam değişkenlerini R'ye yükleyin: Ana menüde Oturum > Yeniden Başlat R'ye tıklayın.

Databricks Connect için ortam değişkenlerini ayarlama

5. Adım: Kod ekleme

  1. RStudio Desktop ana menüsünde Dosya Yeni Dosya R Betiği'ne tıklayın.

  2. Dosyaya aşağıdaki kodu girin ve dosyayı (Dosya > Kaydetme) olarak demo.Rkaydedin:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

6. Adım: Kodu çalıştırma

  1. RStudio Desktop'ta, dosyanın araç çubuğunda demo.R Kaynak'a tıklayın.

    RStudio Desktop projesini çalıştırma

  2. Konsoluiçinde, trips tablosunun ilk beş satırı görüntülenir.

  3. Bağlantılar görünümünde (Görünüm > Bağlantıları Göster), kullanılabilir katalogları, şemaları, tabloları ve görünümleri keşfedebilirsiniz.

    Proje için Bağlantılar görünümü

7. Adım: Kodda hata ayıklama

  1. demo.R dosyasında, kesme noktası ayarlamak için print(trips, n = 5) yanındaki oluk simgesine tıklayın.
  2. Dosyanın araç çubuğunda demo.R Kaynak'a tıklayın.
  3. Kod, kesme noktasında çalışmayı duraklattığında, Ortam görünümünde (Görünüm> Ortamı Göster) değişkeni inceleyebilirsiniz.
  4. Ana menüde Debug > Devam'a tıklayın.
  5. Konsoluiçinde, trips tablosunun ilk beş satırı görüntülenir.

RStudio Desktop projesinde hata ayıklama