Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Uyarı
Bu makale Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect için geçerlidir.
Databricks Connect, PyCharm, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks işlem için bağlamanızı sağlar. Bkz. Databricks Connect.
Bu makalede, PyCharm kullanarak Python için Databricks Connect'i hızlı bir şekilde kullanmaya başlama adımları gösterilmektedir. PyCharm'da bir proje oluşturacak, Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyecek ve PyCharm'dan Databricks çalışma alanınızda klasik işlem üzerinde basit kod çalıştıracaksınız.
Gereksinimler
Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:
- Çalışma alanınız, yerel ortamınız ve işlem Python için Databricks Connect gereksinimlerini karşılar. Bkz. Databricks Connect kullanım gereksinimleri.
- PyCharm yüklü. Bu öğretici PyCharm Community Edition 2023.3.5 ile test edilmiştir. PyCharm'ın farklı bir sürümünü veya sürümünü kullanıyorsanız aşağıdaki yönergeler farklılık gösterebilir.
- Klasik işlem kullanıyorsanız kümenin kimliği gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'deki
clustersveconfigurationarasındaki karakter dizesini kopyalayın.
1. Adım: Azure Databricks kimlik doğrulamayı yapılandırma
Bu öğreticide Azure Databricks çalışma alanınızda kimlik doğrulaması için Azure Databricks OAuth kullanıcıdan makineye (U2M) kimlik doğrulaması ve Azure Databricks configuration profile kullanılır. Farklı bir kimlik doğrulama türü kullanmak için bkz . Bağlantı özelliklerini yapılandırma.
OAuth U2M kimlik doğrulamasını yapılandırmak için Databricks CLI gerekir. Databricks CLI'yı yükleme hakkında bilgi için bkz . Databricks CLI'yi yükleme veya güncelleştirme.
Aşağıdaki gibi OAuth U2M kimlik doğrulamasını başlatın:
-
Aşağıdaki komutta,
<workspace-url>yerine Azure Databricks per-workspace URL yazın, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Tip
Databricks Connect ile sunucusuz işlem kullanmak için bkz Sunucusuz işlem için bağlantı yapılandırma.
Databricks CLI, Azure Databricks configuration profile olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın
Enterveya yeni veya mevcut bir profilin adını girin. Aynı ada sahip herhangi bir mevcut profil, girdiğiniz bilgilerle üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yı kullanarak komutunu
databricks auth profilesçalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunudatabricks auth env --profile <profile-name>çalıştırın.Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.
Terminalinizde veya komut isteminizde görüntülenen kullanılabilir kümeler listesinde, çalışma alanınızdaki hedef Azure Databricks kümesini seçmek için yukarı ok ve aşağı ok tuşlarınızı kullanın ve
Entertuşuna basın. Kullanılabilir kümelerin listesini filtrelemek için kümenin görünen adının herhangi bir bölümünü de yazabilirsiniz.Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Aynı
--hostdeğere sahip birden çok profiliniz varsa Databricks CLI'sının--hostdoğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve-pseçeneklerini birlikte belirtmeniz gerekebilir.
2. Adım: Projeyi oluşturma
- PyCharm'ı başlatın.
- Ana menüde Dosya > Yeni Proje'ye tıklayın.
- Yeni Project iletişim kutusunda Pure Python öğesine tıklayın.
- Location için klasör simgesine tıklayın ve yeni Python projenizin yolunu belirtmek için ekrandaki yönergeleri tamamlayın.
- Bir main.py karşılama betiği oluştur'u seçili bırakın.
- Interpreter type için Project venv öğesine tıklayın.
- Python version genişletin ve yukarıdaki gereksinimlerden Python yorumlayıcının yolunu belirtmek için klasör simgesini veya açılan listeyi kullanın.
- Oluştur'utıklayın.
3. Adım: Databricks Connect paketini ekleme
- PyCharm ana menüsünde View > Tool Windows > Python Packages öğesine tıklayın.
- Arama kutusuna
databricks-connectyazın. - PyPI deposu listesinde databricks-connect'e tıklayın.
- Sonuç bölmesinin en son açılan listesinde, kümenizin Databricks Runtime sürümüyle eşleşen sürümü seçin. Örneğin, kümenizde Databricks Runtime 14.3 yüklüyse 14.3.1'i seçin.
- Paketi yükle'ye tıklayın.
- Paket yüklendikten sonra Python Packages penceresini kapatabilirsiniz.
4. Adım: Kod ekleme
Project araç penceresinde, project kök klasörüne sağ tıklayın ve Yeni > Python Dosyası öğesine tıklayın.
main.pygirin ve Python dosyasına çift tıklayın.Dosyaya aşağıdaki kodu girin ve yapılandırma profilinizin adına bağlı olarak dosyayı kaydedin.
1. Adımdaki yapılandırma profilinizin adı
DEFAULTise, dosyaya aşağıdaki kodu girin ve dosyayı kaydedin:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)1. Adımdaki yapılandırma profiliniz olarak adlandırılmıyorsa
DEFAULT, bunun yerine dosyaya aşağıdaki kodu girin. Yer tutucuyu<profile-name>1. Adımdaki yapılandırma profilinizin adıyla değiştirin ve dosyayı kaydedin:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
5. Adım: Kodu çalıştırma
- Uzak Azure Databricks çalışma alanınızda hedef kümeyi başlatın.
- Küme başlatıldıktan sonra, ana menüde 'main'i çalıştır'a > tıklayın.
-
Run araç penceresinde (View > Aracı Windows > Çalıştır), Run sekmesinin main bölmesinde
samples.nyctaxi.tripsilk 5 satırı görüntülenir.
6. Adım: Kodda hata ayıklama
- Küme çalışmaya devam ediyorken, önceki kodda bir kesme noktası ayarlamak için yanındaki oluk simgesine
df.show(5)tıklayın. - Ana menüde'main' Hata Ayıklamasını Çalıştır'a >tıklayın.
-
Debug araç penceresinde (View > Tool Windows > Debug), Debugger sekmesinin Variables bölmesinde, kodun ve değişkenleri hakkında bilgiye göz atmak için
dfvesparkdeğişken düğümlerini genişletin. - Hata ayıklama aracı penceresinin kenar çubuğunda yeşil ok (Programı Sürdür) simgesine tıklayın.
-
Hata Ayıklayıcı sekmesinin Konsol bölmesinde, ilk 5 satırı
samples.nyctaxi.tripsgörüntülenir.