Öğretici: Visual Studio Code için Databricks uzantısını kullanarak python'ı bir kümede ve iş olarak çalıştırma
Bu öğreticide Visual Studio Code için Databricks uzantısını ayarlama ve ardından Python'ı bir Azure Databricks kümesinde ve uzak çalışma alanınızda Bir Azure Databricks işi olarak çalıştırma adımlarında size yol gösterilir. Bkz . Visual Studio Code için Databricks uzantısı nedir?.
Gereksinimler
Bu öğretici şunları gerektirir:
- Visual Studio Code için Databricks uzantısını yüklediniz. Bkz . Visual Studio Code için Databricks uzantısını yükleme.
- Kullanılacak uzak bir Azure Databricks kümeniz var. Kümenin adını not edin. Kullanılabilir kümelerinizi görüntülemek için Azure Databricks çalışma alanı kenar çubuğunda İşlem'e tıklayın. Bkz. İşlem.
1. Adım: Yeni bir Databricks projesi oluşturma
Bu adımda yeni bir Databricks projesi oluşturacak ve uzak Azure Databricks çalışma alanınızla bağlantıyı yapılandıracaksınız.
- Visual Studio Code'ı başlatın, ardından Dosya > Klasör Aç'a tıklayın ve yerel geliştirme makinenizde boş bir klasör açın.
- Kenar çubuğunda Databricks logo simgesine tıklayın. Bu, Databricks uzantısını açar.
- Yapılandırma görünümünde, Yapılandırma oluştur'a tıklayın.
-
Databricks çalışma alanınızı yapılandırmak için Komut Paleti açılır. Databricks Ana Bilgisayarı
için, çalışma alanı başına URL'nizi girin veya seçin, örneğin. - Proje için bir kimlik doğrulama profili seçin. Bkz. Visual Studio Codeiçin Databricks uzantısı için yetkilendirmeyi ayarlama.
2. Adım: Databricks uzantısına küme bilgileri ekleme ve kümeyi başlatma
Yapılandırma görünümü zaten açıkken, 'Küme seçin' seçeneğine tıklayın veya dişliye (Kümeyi yapılandır) simgesine tıklayın.
Komut Paletiiçinde, daha önce oluşturduğunuz kümenin adını seçin.
Henüz başlatılmadıysa oynat simgesine (Kümeyi Başlat) tıklayın.
3. Adım: Python kodu oluşturma ve çalıştırma
Yerel bir Python kod dosyası oluşturun: Kenar çubuğunda klasör (Gezgin) simgesine tıklayın.
Ana menüde Dosya > Yeni Dosya tıklayın ve bir Python dosyası seçin. Dosyayı demo.py adlandırın ve projenin köküne kaydedin.
Aşağıdaki kodu dosyaya ekleyin ve kaydedin. Bu kod temel bir PySpark DataFrame'in içeriğini oluşturur ve görüntüler:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show()
# +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+
Düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın, ardından Dosyayı Karşıya Yükle ve Çalıştırseçeneğine tıklayın. Çıkış, Hata Ayıklama Konsolu görünümünde görüntülenir.
Alternatif olarak, Gezgin görünümünde dosyaya
demo.py
sağ tıklayın ve ardından Databricks> Çalıştır'a tıklayın.
4. Adım: Kodu iş olarak çalıştırma
demo.py
'ı bir iş olarak çalıştırmak için, düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın ve ardından Dosyayı İş Akışı Olarak Çalıştırseçeneğine tıklayın. Çıktı, dosya düzenleyicisinin demo.py
yanında ayrı bir düzenleyici sekmesinde görüntülenir.
Alternatif olarak,
Sonraki adımlar
Visual Studio Code için Databricks uzantısını yerel bir Python dosyasını karşıya yüklemek ve uzaktan çalıştırmak için başarıyla kullandığınıza göre, şunları da yapabilirsiniz:
- Uzantı kullanıcı arabirimini kullanarak Databricks Varlık Paketleri kaynaklarını ve değişkenlerini keşfedin. Bkz . Databricks Varlık Paketleri uzantısı özellikleri.
- Databricks Connect ile Python kodunu çalıştırın veya hatalarını ayıklayın. Bkz . Visual Studio Code için Databricks uzantısı için Databricks Connect kullanarak kodda hata ayıklama.
- Azure Databricks işi olarak bir dosya veya not defteri çalıştırın. Bkz . Visual Studio Code için Databricks uzantısını kullanarak Azure Databricks'te bir kümede veya dosyada veya not defterinde iş olarak dosya çalıştırma.
- ile
pytest
testleri çalıştırın. Bkz. Visual Studio Code için Databricks uzantısını kullanarak testleri pytest ile çalıştırma.