Aracılığıyla paylaş


Öğretici: Visual Studio Code için Databricks uzantısını kullanarak python'ı bir kümede ve iş olarak çalıştırma

Bu öğreticide Visual Studio Code için Databricks uzantısını ayarlama ve ardından Python'ı bir Azure Databricks kümesinde ve uzak çalışma alanınızda Bir Azure Databricks işi olarak çalıştırma adımlarında size yol gösterilir. Bkz . Visual Studio Code için Databricks uzantısı nedir?.

Gereksinimler

Bu öğretici şunları gerektirir:

  • Visual Studio Code için Databricks uzantısını yüklediniz. Bkz . Visual Studio Code için Databricks uzantısını yükleme.
  • Kullanılacak uzak bir Azure Databricks kümeniz var. Kümenin adını not edin. Kullanılabilir kümelerinizi görüntülemek için Azure Databricks çalışma alanı kenar çubuğunda İşlem'e tıklayın. Bkz. İşlem.

1. Adım: Yeni bir Databricks projesi oluşturma

Bu adımda yeni bir Databricks projesi oluşturacak ve uzak Azure Databricks çalışma alanınızla bağlantıyı yapılandıracaksınız.

  1. Visual Studio Code'ı başlatın, ardından Dosya > Klasör Aç'a tıklayın ve yerel geliştirme makinenizde boş bir klasör açın.
  2. Kenar çubuğunda Databricks logo simgesine tıklayın. Bu, Databricks uzantısını açar.
  3. Yapılandırma görünümünde, Yapılandırma oluştur'a tıklayın.
  4. Databricks çalışma alanınızı yapılandırmak için Komut Paleti açılır. Databricks Ana Bilgisayarıiçin, çalışma alanı başına URL'nizigirin veya seçin, örneğin .
  5. Proje için bir kimlik doğrulama profili seçin. Bkz. Visual Studio Codeiçin Databricks uzantısı için yetkilendirmeyi ayarlama.

2. Adım: Databricks uzantısına küme bilgileri ekleme ve kümeyi başlatma

  1. Yapılandırma görünümü zaten açıkken, 'Küme seçin' seçeneğine tıklayın veya dişliye (Kümeyi yapılandır) simgesine tıklayın.

    Kümeyi yapılandırma

  2. Komut Paletiiçinde, daha önce oluşturduğunuz kümenin adını seçin.

  3. Henüz başlatılmadıysa oynat simgesine (Kümeyi Başlat) tıklayın.

3. Adım: Python kodu oluşturma ve çalıştırma

  1. Yerel bir Python kod dosyası oluşturun: Kenar çubuğunda klasör (Gezgin) simgesine tıklayın.

  2. Ana menüde Dosya > Yeni Dosya tıklayın ve bir Python dosyası seçin. Dosyayı demo.py adlandırın ve projenin köküne kaydedin.

  3. Aşağıdaki kodu dosyaya ekleyin ve kaydedin. Bu kod temel bir PySpark DataFrame'in içeriğini oluşturur ve görüntüler:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın, ardından Dosyayı Karşıya Yükle ve Çalıştırseçeneğine tıklayın. Çıkış, Hata Ayıklama Konsolu görünümünde görüntülenir.

    Dosyayı karşıya yükle ve çalıştır simgesi

    Alternatif olarak, Gezgin görünümünde dosyaya demo.py sağ tıklayın ve ardından Databricks> Çalıştır'a tıklayın.

    Bağlam menüsünden dosyayı karşıya yükleme ve çalıştırma

4. Adım: Kodu iş olarak çalıştırma

demo.py'ı bir iş olarak çalıştırmak için, düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın ve ardından Dosyayı İş Akışı Olarak Çalıştırseçeneğine tıklayın. Çıktı, dosya düzenleyicisinin demo.py yanında ayrı bir düzenleyici sekmesinde görüntülenir.

Dosyayı simgesinden iş akışı olarak çalıştır

Alternatif olarak, Gezgini panelinde dosyasına sağ tıklayın, sonra Databricks'te Çalıştır ve ardındanDosyayı İş Akışı Olarak Çalıştır seçeneklerini seçin.

Bağlam menüsünden dosyayı iş akışı olarak çalıştır

Sonraki adımlar

Visual Studio Code için Databricks uzantısını yerel bir Python dosyasını karşıya yüklemek ve uzaktan çalıştırmak için başarıyla kullandığınıza göre, şunları da yapabilirsiniz:

  • Uzantı kullanıcı arabirimini kullanarak Databricks Varlık Paketleri kaynaklarını ve değişkenlerini keşfedin. Bkz . Databricks Varlık Paketleri uzantısı özellikleri.
  • Databricks Connect ile Python kodunu çalıştırın veya hatalarını ayıklayın. Bkz . Visual Studio Code için Databricks uzantısı için Databricks Connect kullanarak kodda hata ayıklama.
  • Azure Databricks işi olarak bir dosya veya not defteri çalıştırın. Bkz . Visual Studio Code için Databricks uzantısını kullanarak Azure Databricks'te bir kümede veya dosyada veya not defterinde iş olarak dosya çalıştırma.
  • ile pytesttestleri çalıştırın. Bkz. Visual Studio Code için Databricks uzantısını kullanarak testleri pytest ile çalıştırma.