Python için Databricks Bağlan

Not

Bu makalede Databricks Runtime 13.0 ve üzeri için Databricks Bağlan yer alır.

Bu makalede, Python ve PyCharm kullanarak Databricks Bağlan kullanmaya hızlı bir şekilde başlama adımları gösterilmektedir.

  • Bu makalenin R sürümü için bkz. R için Databricks Bağlan.
  • Bu makalenin Scala sürümü için bkz. Scala için Databricks Bağlan.

Databricks Bağlan PyCharm, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Bağlan nedir?.

Öğretici

Bu öğreticiyi atlamak ve bunun yerine farklı bir IDE kullanmak için bkz . Sonraki adımlar.

Gereksinimler

Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:

  • Hedef Azure Databricks çalışma alanınız ve kümeniz Databricks Bağlan için Küme yapılandırması gereksinimlerini karşılamalıdır.

  • Küme kimliğinizin kullanılabilir olması gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'de ve configuration arasında clusters karakter dizesini kopyalayın.

  • PyCharm yüklü. Bu öğretici PyCharm Community Edition 2023.3.5 ile test edilmiştir. PyCharm'ın farklı bir sürümünü veya sürümünü kullanıyorsanız aşağıdaki yönergeler farklılık gösterebilir.

  • Geliştirme makinenizde Python 3 yüklüdür ve istemci Python yüklemenizin ikincil sürümü, Azure Databricks kümenizin ikincil Python sürümüyle aynıdır. Aşağıdaki tabloda her Databricks Runtime ile yüklenen Python sürümü gösterilmektedir.

    Databricks Runtime sürümü Python sürümü
    15.0 ML,
    15.0
    3.11
    13.0 ML - 14.3 ML,
    13.0 - 14.3
    3,10

1. Adım: Azure Databricks kimlik doğrulamayı yapılandırma

Bu öğreticide Azure Databricks çalışma alanınızla kimlik doğrulaması yapmak için Azure Databricks OAuth kullanıcıdan makineye (U2M) kimlik doğrulaması ve Azure Databricks yapılandırma profili kullanılır. Bunun yerine farklı bir kimlik doğrulama türü kullanmak için bkz . Bağlantı özelliklerini yapılandırma.

OAuth U2M kimlik doğrulamasını yapılandırmak için Databricks CLI gerekir:

  1. Henüz yüklü değilse Databricks CLI'yi aşağıdaki gibi yükleyin:

    Linux, macos

    Aşağıdaki iki komutu çalıştırarak Databricks CLI'yi yüklemek için Homebrew kullanın:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    Databricks CLI'yı yüklemek için winget, Chocolatey veya Linux için Windows Alt Sistemi (WSL) kullanabilirsiniz. , Chocolatey veya WSL kullanamıyorsanız winget, bu yordamı atlayıp Komut İstemi'ni veya PowerShell'i kullanarak Databricks CLI'yi kaynaktan yüklemeniz gerekir.

    Not

    Databricks CLI'yi Chocolatey ile yüklemek deneyseldir.

    Databricks CLI'yı yüklemek için kullanmak winget için aşağıdaki iki komutu çalıştırın ve komut isteminizi yeniden başlatın:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Chocolatey'yi kullanarak Databricks CLI'yı yüklemek için aşağıdaki komutu çalıştırın:

    choco install databricks-cli
    

    WSL kullanarak Databricks CLI'yi yüklemek için:

    1. WSL aracılığıyla ve zip yükleyincurl. Daha fazla bilgi için işletim sisteminizin belgelerine bakın.

    2. Aşağıdaki komutu çalıştırarak Databricks CLI'yi yüklemek için WSL kullanın:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Yüklü Databricks CLI'nın geçerli sürümünü görüntüleyen aşağıdaki komutu çalıştırarak Databricks CLI'nin yüklendiğini onaylayın. Bu sürüm 0.205.0 veya üzeri olmalıdır:

    databricks -v
    

    Not

    komutunu çalıştırır databricks ancak gibi command not found: databricksbir hata alırsanız veya çalıştırırsanız databricks -v ve 0,18 veya daha yeni bir sürüm numarası listelenirse, bu, makinenizin Databricks CLI yürütülebilir dosyasının doğru sürümünü bulamadığı anlamına gelir. Bunu düzeltmek için bkz . CLI yüklemenizi doğrulama.

Aşağıdaki gibi OAuth U2M kimlik doğrulamasını başlatın:

  1. Her hedef çalışma alanı için aşağıdaki komutu çalıştırarak yerel olarak OAuth belirteci yönetimini başlatmak için Databricks CLI'sini kullanın.

    Aşağıdaki komutta değerini çalışma alanı başına Azure Databricks URL'nizle değiştirin<workspace-url>, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın Enter veya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip mevcut tüm profillerin üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.

    Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yi kullanarak komutunu databricks auth profilesçalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunu databricks auth env --profile <profile-name>çalıştırın.

  3. Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.

  4. Terminalinizde veya komut isteminizde görüntülenen kullanılabilir kümeler listesinde, çalışma alanınızdaki hedef Azure Databricks kümesini seçmek için yukarı ve aşağı ok tuşlarınızı kullanın ve ardından tuşuna basın Enter. Kullanılabilir kümelerin listesini filtrelemek için kümenin görünen adının herhangi bir bölümünü de yazabilirsiniz.

  5. Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Aynı --host değere sahip birden çok profiliniz varsa Databricks CLI'sının --host doğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve -p seçeneklerini birlikte belirtmeniz gerekebilir.

2. Adım: Projeyi oluşturma

  1. PyCharm'ı başlatın.
  2. Ana menüde Dosya Yeni Proje'ye tıklayın>.
  3. Yeni Proje iletişim kutusunda Saf Python'a tıklayın.
  4. Konum için klasör simgesine tıklayın ve yeni Python projenizin yolunu belirtmek için ekrandaki yönergeleri tamamlayın.
  5. main.py karşılama betiği oluştur'u seçili bırakın.
  6. Yorumlayıcı türü için Project venv'ye tıklayın.
  7. Python sürümünü genişletin ve yukarıdaki gereksinimlerden Python yorumlayıcısının yolunu belirtmek için klasör simgesini veya açılan listeyi kullanın.
  8. Oluştur’a tıklayın.

PyCharm projesini oluşturma

3. Adım: Databricks Bağlan paketini ekleme

  1. PyCharm'ın ana menüsünde Görünüm > Aracı Windows > Python Paketleri'ne tıklayın.
  2. Arama kutusuna databricks-connect yazın.
  3. PyPI deposu listesinde databricks-connect'e tıklayın.
  4. Sonuç bölmesinin en son açılan listesinde, kümenizin Databricks Runtime sürümüyle eşleşen sürümü seçin. Örneğin, kümenizde Databricks Runtime 14.3 yüklüyse 14.3.1'i seçin.
  5. Paketi yükle'ye tıklayın.
  6. Paket yüklendikten sonra Python Paketleri penceresini kapatabilirsiniz.

Databricks Bağlan paketini yükleme

4. Adım: Kod ekleme

  1. Proje aracı penceresinde, projenin kök klasörüne sağ tıklayın ve Yeni > Python Dosyası'na tıklayın.

  2. Python dosyasını girin main.py ve çift tıklayın.

  3. Dosyaya aşağıdaki kodu girin ve yapılandırma profilinizin adına bağlı olarak dosyayı kaydedin.

    1. Adımdaki yapılandırma profilinizin adı DEFAULTise, dosyaya aşağıdaki kodu girin ve dosyayı kaydedin:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    1. Adımdaki yapılandırma profiliniz olarak adlandırılmıyorsa DEFAULT, bunun yerine dosyaya aşağıdaki kodu girin. Yer tutucuyu <profile-name> 1. Adımdaki yapılandırma profilinizin adıyla değiştirin ve dosyayı kaydedin:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

5. Adım: Kodu çalıştırma

  1. Hedef kümeyi uzak Azure Databricks çalışma alanınızda başlatın.
  2. Küme başlatıldıktan sonra, ana menüde Çalıştır 'main' çalıştır'a > tıklayın.
  3. Çalıştır aracı penceresinde (Görünüm > Aracı Windows > Çalıştırması), Çalıştır sekmesinin ana bölmesinde, ilk 5 satırı samples.nyctaxi.trips görüntülenir.

6. Adım: Kodda hata ayıklama

  1. Küme çalışmaya devam ediyorken, önceki kodda bir kesme noktası ayarlamak için yanındaki oluk simgesine df.show(5) tıklayın.
  2. Ana menüde'main' Hata Ayıklamasını Çalıştır'a> tıklayın.
  3. Hata Ayıklama aracı penceresinde (Görünüm > Aracı Windows > Hata Ayıklama), Hata Ayıklayıcı sekmesinin Değişkenler bölmesinde df ve spark değişken düğümlerini genişleterek kodun df ve spark değişkenlerin bilgilerine göz atın.
  4. Hata ayıklama aracı penceresinin kenar çubuğunda yeşil ok (Programı Sürdür) simgesine tıklayın.
  5. Hata Ayıklayıcı sekmesinin Konsol bölmesinde, ilk 5 satırı samples.nyctaxi.trips görüntülenir.

PyCharm projesinde hata ayıklama

Sonraki adımlar

Databricks Bağlan hakkında daha fazla bilgi edinmek için aşağıdakiler gibi makalelere bakın: