Python için Databricks Connect
Not
Bu makale Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i kapsar.
Bu makalede Python ve PyCharm kullanarak Databricks Connect'i hızlı bir şekilde kullanmaya başlama adımları gösterilmektedir.
- Bu makalenin R sürümü için bkz . R için Databricks Connect.
- Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect.
Databricks Connect, PyCharm, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?.
Öğretici
Bu öğreticiyi atlamak ve bunun yerine farklı bir IDE kullanmak için bkz . Sonraki adımlar.
Gereksinimler
Bu öğreticiyi tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:
- Hedef Azure Databricks çalışma alanınızda Unity Kataloğu etkinleştirilmiş olmalıdır.
- PyCharm yüklü. Bu öğretici PyCharm Community Edition 2023.3.5 ile test edilmiştir. PyCharm'ın farklı bir sürümünü veya sürümünü kullanıyorsanız aşağıdaki yönergeler farklılık gösterebilir.
- İşleminiz Python için Databricks Connect yükleme gereksinimlerini karşılar.
- Klasik işlem kullanıyorsanız kümenin kimliği gerekir. Küme kimliğinizi almak için çalışma alanınızda kenar çubuğunda İşlem'e tıklayın ve ardından kümenizin adına tıklayın. Web tarayıcınızın adres çubuğunda, URL'de ve
configuration
arasındaclusters
karakter dizesini kopyalayın.
1. Adım: Azure Databricks kimlik doğrulamayı yapılandırma
Bu öğreticide Azure Databricks OAuth kullanıcıdan makineye (U2M) kimlik doğrulaması ve Azure Databricks çalışma alanınızda kimlik doğrulaması için bir Azure Databricks yapılandırma profili kullanılır. Farklı bir kimlik doğrulama türü kullanmak için bkz . Bağlantı özelliklerini yapılandırma.
OAuth U2M kimlik doğrulamasını yapılandırmak için Databricks CLI gerekir. Databricks CLI'yı yükleme hakkında bilgi için bkz . Databricks CLI'yi yükleme veya güncelleştirme.
Aşağıdaki gibi OAuth U2M kimlik doğrulamasını başlatın:
-
Aşağıdaki komutta değerini çalışma alanı başına Azure Databricks URL'nizle değiştirin
<workspace-url>
, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Alternatif olarak, Databricks Sunucusuz işlemini DB Connect ile kullanmak istiyorsanız Sunucusuz işlemle bağlantı yapılandırma adımlarını izleyin.
Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın
Enter
veya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip mevcut tüm profillerin üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yi kullanarak komutunu
databricks auth profiles
çalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunudatabricks auth env --profile <profile-name>
çalıştırın.Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.
Terminalinizde veya komut isteminizde görüntülenen kullanılabilir kümeler listesinde, çalışma alanınızdaki hedef Azure Databricks kümesini seçmek için yukarı ve aşağı ok tuşlarınızı kullanın ve ardından tuşuna basın
Enter
. Kullanılabilir kümelerin listesini filtrelemek için kümenin görünen adının herhangi bir bölümünü de yazabilirsiniz.Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Aynı
--host
değere sahip birden çok profiliniz varsa Databricks CLI'sının--host
doğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve-p
seçeneklerini birlikte belirtmeniz gerekebilir.
2. Adım: Projeyi oluşturma
- PyCharm'ı başlatın.
- Ana menüde Dosya Yeni Proje'ye tıklayın>.
- Yeni Proje iletişim kutusunda Saf Python'a tıklayın.
- Konum için klasör simgesine tıklayın ve yeni Python projenizin yolunu belirtmek için ekrandaki yönergeleri tamamlayın.
- main.py karşılama betiği oluştur'u seçili bırakın.
- Yorumlayıcı türü için Project venv'ye tıklayın.
- Python sürümünü genişletin ve yukarıdaki gereksinimlerden Python yorumlayıcısının yolunu belirtmek için klasör simgesini veya açılan listeyi kullanın.
- Oluştur’a tıklayın.
3. Adım: Databricks Connect paketini ekleme
- PyCharm'ın ana menüsünde Görünüm > Aracı Windows > Python Paketleri'ne tıklayın.
- Arama kutusuna
databricks-connect
yazın. - PyPI deposu listesinde databricks-connect'e tıklayın.
- Sonuç bölmesinin en son açılan listesinde, kümenizin Databricks Runtime sürümüyle eşleşen sürümü seçin. Örneğin, kümenizde Databricks Runtime 14.3 yüklüyse 14.3.1'i seçin.
- Paketi yükle'ye tıklayın.
- Paket yüklendikten sonra Python Paketleri penceresini kapatabilirsiniz.
4. Adım: Kod ekleme
Proje aracı penceresinde, projenin kök klasörüne sağ tıklayın ve Yeni > Python Dosyası'na tıklayın.
Python dosyasını girin
main.py
ve çift tıklayın.Dosyaya aşağıdaki kodu girin ve yapılandırma profilinizin adına bağlı olarak dosyayı kaydedin.
1. Adımdaki yapılandırma profilinizin adı
DEFAULT
ise, dosyaya aşağıdaki kodu girin ve dosyayı kaydedin:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
1. Adımdaki yapılandırma profiliniz olarak adlandırılmıyorsa
DEFAULT
, bunun yerine dosyaya aşağıdaki kodu girin. Yer tutucuyu<profile-name>
1. Adımdaki yapılandırma profilinizin adıyla değiştirin ve dosyayı kaydedin:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
5. Adım: Kodu çalıştırma
- Hedef kümeyi uzak Azure Databricks çalışma alanınızda başlatın.
- Küme başlatıldıktan sonra, ana menüde Çalıştır 'main' çalıştır'a > tıklayın.
- Çalıştır aracı penceresinde (Görünüm > Aracı Windows > Çalıştırması), Çalıştır sekmesinin ana bölmesinde, ilk 5 satırı
samples.nyctaxi.trips
görüntülenir.
6. Adım: Kodda hata ayıklama
- Küme çalışmaya devam ediyorken, önceki kodda bir kesme noktası ayarlamak için yanındaki oluk simgesine
df.show(5)
tıklayın. - Ana menüde'main' Hata Ayıklamasını Çalıştır'a> tıklayın.
- Hata Ayıklama aracı penceresinde (Görünüm > Aracı Windows > Hata Ayıklama), Hata Ayıklayıcı sekmesinin Değişkenler bölmesinde df ve spark değişken düğümlerini genişleterek kodun
df
vespark
değişkenlerin bilgilerine göz atın. - Hata ayıklama aracı penceresinin kenar çubuğunda yeşil ok (Programı Sürdür) simgesine tıklayın.
- Hata Ayıklayıcı sekmesinin Konsol bölmesinde, ilk 5 satırı
samples.nyctaxi.trips
görüntülenir.
Sonraki adımlar
Databricks Connect hakkında daha fazla bilgi edinmek için aşağıdakiler gibi makalelere bakın:
Azure Databricks kişisel erişim belirteci dışındaki Azure Databricks kimlik doğrulama türlerini kullanmak için bkz . Bağlantı özelliklerini yapılandırma.
Diğer IDE'leri, not defteri sunucularını ve Spark kabuğunu kullanmak için aşağıdakilere bakın:
Ek basit kod örneklerini görüntülemek için bkz . Python için Databricks Connect için kod örnekleri.
Daha karmaşık kod örneklerini görüntülemek için GitHub'daki Databricks Connect deposu için örnek uygulamalara bakın; özellikle:
Databricks Connect ile Databricks Yardımcı Programlarını kullanmak için bkz . Python için Databricks Connect ile Databricks Yardımcı Programları.
Databricks Runtime 12.2 LTS ve altı için Databricks Connect'ten Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e geçiş yapmak için bkz . Python için Databricks Connect'e geçiş.
Ayrıca bkz. Sorun giderme ve sınırlamalar hakkında bilgi.