R için Databricks Bağlan

Not

Bu makale, Databricks Runtime 13.0 ve üzeri için Databricks Bağlan ile tümleştirmeyi kapsarsparklyr. Bu tümleştirme Ne Databricks tarafından sağlanır ne de Databricks tarafından doğrudan desteklenir.

Sorular için Posit Community'ye gidin.

Sorunları bildirmek için GitHub'daki deponun sparklyr Sorunlar bölümüne gidin.

Daha fazla bilgi için belgelerdeki Databricks Bağlan v2 bölümüne sparklyr bakın.

Bu makalede R, sparklyrve RStudio Desktop'ı kullanarak Databricks Bağlan kullanmaya hızlı bir şekilde başlama adımları gösterilmektedir.

  • Bu makalenin Python sürümü için bkz. Python için Databricks Bağlan.
  • Bu makalenin Scala sürümü için bkz. Scala için Databricks Bağlan.

Databricks Bağlan, RStudio Desktop, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Bağlan nedir?.

Öğretici

Bu öğreticide RStudio Desktop ve Python 3.10 kullanılmaktadır. Henüz yüklü değilse R ve RStudio Desktop ile Python 3.10'u yükleyin.

Bu öğretici hakkında ek bilgi için, web sitesindeki Spark Bağlan ve Databricks Bağlan v2'nin sparklyr "Databricks Bağlan" bölümüne bakın.

Gereksinimler

Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:

  • Hedef Azure Databricks çalışma alanınız ve kümeniz Databricks Bağlan için Küme yapılandırması gereksinimlerini karşılamalıdır.
  • Küme kimliğinizin kullanılabilir olması gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'de ve configuration arasında clusters karakter dizesini kopyalayın.

1. Adım: Kişisel erişim belirteci oluşturma

Not

R kimlik doğrulaması için Databricks Bağlan şu anda yalnızca Azure Databricks kişisel erişim belirteçlerini desteklemektedir.

Bu öğreticide, Azure Databricks çalışma alanınızla kimlik doğrulaması yapmak için Azure Databricks kişisel erişim belirteci kimlik doğrulaması gerçekleştirilir.

Zaten bir Azure Databricks kişisel erişim belirtecine sahipseniz 2. Adım'a atlayın. Azure Databricks kişisel erişim belirtecinizin olup olmadığından emin değilseniz, kullanıcı hesabınızdaki diğer Azure Databricks kişisel erişim belirteçlerini etkilemeden bu adımı izleyebilirsiniz.

Kişisel erişim belirteci oluşturmak için:

  1. Azure Databricks çalışma alanınızda üst çubukta Azure Databricks kullanıcı adınıza tıklayın ve açılan listeden Ayarlar seçin.
  2. Geliştirici'ye tıklayın.
  3. Erişim belirteçleri'nin yanındaki Yönet'e tıklayın.
  4. Yeni belirteç oluştur'a tıklayın.
  5. (İsteğe bağlı) Gelecekte bu belirteci tanımlamanıza yardımcı olacak bir açıklama girin ve belirtecin varsayılan 90 günlük ömrünü değiştirin. Yaşam süresi olmayan bir belirteç oluşturmak için (önerilmez), Yaşam Süresi (gün) kutusunu boş (boş) bırakın.
  6. Generate (Oluştur) düğmesine tıklayın.
  7. Görüntülenen belirteci güvenli bir konuma kopyalayın ve bitti'ye tıklayın.

Not

Kopyalanan belirteci güvenli bir konuma kaydettiğinizden emin olun. Kopyalanan belirtecinizi başkalarıyla paylaşmayın. Kopyalanan belirteci kaybederseniz, tam olarak aynı belirteci yeniden oluşturamazsınız. Bunun yerine, yeni bir belirteç oluşturmak için bu yordamı yinelemeniz gerekir. Kopyalanan belirteci kaybederseniz veya belirtecin gizliliğinin ihlal edildiğini düşünüyorsanız Databricks, Erişim belirteçleri sayfasındaki belirtecin yanındaki çöp kutusu (İptal Et) simgesine tıklayarak bu belirteci çalışma alanınızdan hemen silmenizi kesinlikle önerir.

Çalışma alanınızda belirteç oluşturamıyor veya kullanamıyorsanız, bunun nedeni çalışma alanı yöneticinizin belirteçleri devre dışı bırakmış olması veya size belirteç oluşturma veya kullanma izni vermemiş olması olabilir. Çalışma alanı yöneticinize veya aşağıdakilere bakın:

2. Adım: Projeyi oluşturma

  1. RStudio Desktop'ı başlatın.
  2. Ana menüde Dosya Yeni Proje'ye tıklayın>.
  3. Yeni Dizin'i seçin.
  4. Yeni Proje'yi seçin.
  5. Dizin adı ve Alt dizini olarak proje oluştur için, yeni proje dizininin adını ve bu yeni proje dizininin nerede oluşturulacağını girin.
  6. Bu projeyle renv kullan'ı seçin. Paketin güncelleştirilmiş bir sürümünü renv yüklemeniz istenirse Evet'e tıklayın.
  7. Proje Oluştur'a tıklayın.

RStudio Desktop projesini oluşturma

3. Adım: Databricks Bağlan paketini ve diğer bağımlılıkları ekleme

  1. RStudio Desktop ana menüsünde Araçlar > Paketleri Yükle'ye tıklayın.

  2. Yükleme'yi kümeden Depo (CRAN) olarak bırakın.

  3. Paketler için Databricks Bağlan paketinin önkoşulları olan paketlerin listesini ve bu öğreticiyi girin:

    sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
    
  4. Yükle'yi Kitaplık olarak R sanal ortamınıza ayarlanmış olarak bırakın.

  5. Bağımlılıkları yükle'nin seçili olduğundan emin olun.

  6. Yükle'ye tıklayın.

Databricks Bağlan paket bağımlılıklarını yükleme

  1. Konsol görünümünde (Odağı Konsola Taşımayı Görüntüle>) yükleme işlemine devam etmek isteyip istemediğiniz sorulduğunda girinY. sparklyr ve pysparklyr paketleri ve bağımlılıkları R sanal ortamınıza yüklenir.

  2. Konsol bölmesinde, aşağıdaki komutu çalıştırarak Python'ı yüklemek için kullanınreticulate. (R için Databricks Bağlan önce Python'ın yüklenmesini gerektirirreticulate.) Aşağıdaki komutta değerini Azure Databricks kümenizde yüklü olan Python sürümünün birincil ve ikincil sürümüyle değiştirin3.10. Bu ana ve ikincil sürümü bulmak için, Databricks Runtime sürüm notları sürümleri ve uyumluluğunda kümenizin Databricks Runtime sürümünün sürüm notlarının "Sistem ortamı" bölümüne bakın.

    reticulate::install_python(version = "3.10")
    
  3. Konsol bölmesinde, aşağıdaki komutu çalıştırarak Databricks Bağlan paketini yükleyin. Aşağıdaki komutta değerini Azure Databricks kümenizde yüklü olan Databricks Runtime sürümüyle değiştirin 13.3 . Bu sürümü bulmak için, Azure Databricks çalışma alanınızdaki kümenizin ayrıntılar sayfasında, Yapılandırma sekmesinde Databricks Runtime Sürümü kutusuna bakın.

    pysparklyr::install_databricks(version = "13.3")
    

    Kümeniz için Databricks Runtime sürümünü bilmiyorsanız veya aramak istemiyorsanız, bunun yerine aşağıdaki komutu çalıştırabilirsiniz ve pysparklyr kullanılacak doğru Databricks Runtime sürümünü belirlemek için kümeyi sorgularsınız:

    pysparklyr::install_databricks(cluster_id = "<cluster-id>")
    

    Projenizin daha sonra az önce belirttiğinizden aynı Databricks Runtime sürümüne sahip farklı bir kümeye bağlanmasını istiyorsanız, pysparklyr aynı Python ortamını kullanır. Yeni küme farklı bir Databricks Runtime sürümüne sahipse, komutu yeni Databricks Runtime sürümü veya küme kimliğiyle yeniden çalıştırmanız pysparklyr::install_databricks gerekir.

4. Adım: Çalışma alanı URL'si, erişim belirteci ve küme kimliği için ortam değişkenlerini ayarlama

Databricks, R betiklerinize Azure Databricks çalışma alanı URL'niz, Azure Databricks kişisel erişim belirteci veya Azure Databricks küme kimliği gibi hassas veya değişen değerleri sabit kodla yazmanızı önermez. Bunun yerine, bu değerleri ayrı ayrı depolayın, örneğin yerel ortam değişkenlerinde. Bu öğreticide RStudio Desktop'ın ortam değişkenlerini bir .Renviron dosyada depolamaya yönelik yerleşik desteği kullanılmaktadır.

  1. Bu dosya yoksa ortam değişkenlerini depolamak için bir .Renviron dosya oluşturun ve bu dosyayı düzenlemek üzere açın: RStudio Masaüstü Konsolu'nda aşağıdaki komutu çalıştırın:

    usethis::edit_r_environ()
    
  2. Görüntülenen dosyaya .Renviron (Odağı Kaynağa Taşı'yı Görüntüle>) aşağıdaki içeriği girin. Bu içerikte aşağıdaki yer tutucuları değiştirin:

    • değerini çalışma alanı başına URL'nizle değiştirin<workspace-url>, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.
    • değerini 1. Adım'dan Azure Databricks kişisel erişim belirtecinizle değiştirin <personal-access-token> .
    • değerini bu öğreticinin gereksinimlerinden küme kimliğiniz ile değiştirin <cluster-id> .
    DATABRICKS_HOST=<workspace-url>
    DATABRICKS_TOKEN=<personal-access-token>
    DATABRICKS_CLUSTER_ID=<cluster-id>
    
  3. .Renviron dosyasını kaydedin.

  4. Ortam değişkenlerini R'ye yükleyin: Ana menüde Oturum > Yeniden Başlat R'ye tıklayın.

Databricks Bağlan için ortam değişkenlerini ayarlama

5. Adım: Kod ekleme

  1. RStudio Desktop ana menüsünde Dosya Yeni Dosya R Betiği'ne tıklayın>.>

  2. Dosyaya aşağıdaki kodu girin ve dosyayı (Dosya > Kaydetme) olarak demo.Rkaydedin:

    library(sparklyr)
    library(dplyr)
    library(dbplyr)
    
    sc <- sparklyr::spark_connect(
      master     = Sys.getenv("DATABRICKS_HOST"),
      cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"),
      token      = Sys.getenv("DATABRICKS_TOKEN"),
      method     = "databricks_connect",
      envname    = "r-reticulate"
    )
    
    trips <- dplyr::tbl(
      sc,
      dbplyr::in_catalog("samples", "nyctaxi", "trips")
    )
    
    print(trips, n = 5)
    

6. Adım: Kodu çalıştırma

  1. RStudio Desktop'ta, dosyanın araç çubuğunda demo.R Kaynak'a tıklayın.

    RStudio Desktop projesini çalıştırma

  2. Konsol'da tablonun ilk beş satırı trips görüntülenir.

  3. Bağlan ions görünümünde (Görünüm > Bağlan ions) kullanılabilir katalogları, şemaları, tabloları ve görünümleri keşfedebilirsiniz.

    Projenin Bağlan ions görünümü

7. Adım: Kodda hata ayıklama

  1. Dosyada demo.R , kesme noktası ayarlamak için yanındaki oluk simgesine print(trips, n = 5) tıklayın.
  2. Dosyanın araç çubuğunda demo.R Kaynak'a tıklayın.
  3. Kod kesme noktasında çalışırken duraklatıldığında, değişkeni Ortam görünümünde (Ortamı Göster Görünümü>) inceleyebilirsiniz.
  4. Ana menüde Hata Ayıklama > Devam'a tıklayın.
  5. Konsol'da tablonun ilk beş satırı trips görüntülenir.

RStudio Desktop projesinde hata ayıklama