Kılavuz: Visual Studio Code için Databricks uzantısını kullanarak bir kümede ve iş olarak Python çalıştırma

Bu öğreticide, Visual Studio Code için Databricks uzantısını ayarlama ve ardından Python bir Azure Databricks kümesinde ve uzak çalışma alanınızda bir Azure Databricks işi olarak çalıştırma adımlarında size yol gösterilir. Visual Studio Code için Databricks uzantısına bakın.

Gereksinimler

Bu öğretici şunları gerektirir:

  • Visual Studio Code için Databricks uzantısını yüklediniz. Bkz. Visual Studio Code için Databricks uzantısını yükleme.
  • Kullanmak üzere bir uzak Azure Databricks kümeniz var. Kümenin adını not edin. Kullanılabilir kümelerinizi görüntülemek için, Azure Databricks çalışma alanı kenar çubuğunda Compute öğesine tıklayın. Bkz. İşlem.

1. Adım: Yeni bir Databricks projesi oluşturma

Bu adımda yeni bir Databricks projesi oluşturacak ve uzak Azure Databricks çalışma alanınızla bağlantıyı yapılandıracaksınız.

  1. Visual Studio Code başlatın, ardından File > Klasör Aç öğesine tıklayın ve yerel geliştirme makinenizde boş bir klasör açın.
  2. Kenar çubuğunda Databricks logo simgesine tıklayın. Bu, Databricks uzantısını açar.
  3. Yapılandırma görünümünde, Yapılandırma oluştur'a tıklayın.
  4. Databricks çalışma alanınızı yapılandırmak için Komut Paleti açılır. Databricks Ana Bilgisayarıiçin, çalışma alanı başına URL'nizigirin veya seçin, örneğin .
  5. Proje için bir kimlik doğrulama profili seçin. Bkz. Visual Studio Code için Databricks uzantısı için yetkilendirmeyi ayarlama.

2. Adım: Databricks uzantısına küme bilgileri ekleme ve kümeyi başlatma

  1. Yapılandırma görünümü zaten açıkken, 'Küme seçin' seçeneğine tıklayın veya dişliye (Kümeyi yapılandır) simgesine tıklayın.

    Kümeyi yapılandırma

  2. Komut Paletiiçinde, daha önce oluşturduğunuz kümenin adını seçin.

  3. Henüz başlatılmadıysa oynat simgesine (Kümeyi Başlat) tıklayın.

3. Adım: Python kodu oluşturma ve çalıştırma

  1. Yerel Python kod dosyası oluşturun: Kenar çubuğunda klasör (Explorer) simgesine tıklayın.

  2. Ana menüde File > Yeni Dosya'e tıklayın ve Python bir dosya seçin. Dosyayı demo.py adlandırın ve projenin köküne kaydedin.

  3. Aşağıdaki kodu dosyaya ekleyin ve kaydedin. Bu kod temel bir PySpark DataFrame'in içeriğini oluşturur ve görüntüler:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın, ardından Dosyayı Karşıya Yükle ve Çalıştırseçeneğine tıklayın. Çıkış, Hata Ayıklama Konsolu görünümünde görüntülenir.

    Dosyayı karşıya yükle ve simgeden çalıştır

    Alternatif olarak, Gezgin görünümünde dosyaya demo.py sağ tıklayın ve ardından Databricks'te Çalıştır seçeneğine tıklayın, >Dosyayı Yükle ve Çalıştır.

    Bağlam menüsünde dosya yükleyip çalıştırma

4. Adım: Kodu iş olarak çalıştırma

demo.py'ı bir iş olarak çalıştırmak için, düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine tıklayın ve ardından Dosyayı İş Akışı Olarak Çalıştırseçeneğine tıklayın. Çıktı, dosya düzenleyicisinin demo.py yanında ayrı bir düzenleyici sekmesinde görüntülenir.

Dosyayı simgesinden iş akışı olarak çalıştır

Alternatif olarak, Gezgini panelinde dosyasına sağ tıklayın, sonra Databricks'te Çalıştır ve ardındanDosyayı İş Akışı Olarak Çalıştır seçeneklerini seçin.

Bağlam menüsünden dosyayı iş akışı olarak çalıştır

Sonraki adımlar

Artık yerel bir Python dosyasını karşıya yüklemek ve uzaktan çalıştırmak üzere Visual Studio Code için Databricks uzantısını başarıyla kullandığınıza göre şunları da yapabilirsiniz: