Aracılığıyla paylaş


Öğretici: Visual Studio Code için Databricks uzantısını kullanarak python'ı bir kümede ve iş olarak çalıştırma

Bu öğreticide Visual Studio Code için Databricks uzantısını ayarlama ve ardından Python'ı bir Azure Databricks kümesinde ve uzak çalışma alanınızda Bir Azure Databricks işi olarak çalıştırma adımlarında size yol gösterilir. Bkz . Visual Studio Code için Databricks uzantısı nedir?.

Gereksinimler

Bu öğretici şunları gerektirir:

  • Visual Studio Code için Databricks uzantısını yüklediniz. Bkz . Visual Studio Code için Databricks uzantısını yükleme.
  • Kullanılacak uzak bir Azure Databricks kümeniz var. Kümenin adını not edin. Kullanılabilir kümelerinizi görüntülemek için Azure Databricks çalışma alanı kenar çubuğunda İşlem'e tıklayın. Bkz. İşlem.

1. Adım: Yeni bir Databricks projesi oluşturma

Bu adımda yeni bir Databricks projesi oluşturacak ve uzak Azure Databricks çalışma alanınızla bağlantıyı yapılandıracaksınız.

  1. Visual Studio Code'ı başlatın, ardından Dosya > Klasör Aç'a tıklayın ve yerel geliştirme makinenizde boş bir klasör açın.
  2. Kenar çubuğunda Databricks logo simgesine tıklayın. Bu, Databricks uzantısını açar.
  3. Yapılandırma görünümünde Databricks Projesine Geçir'e tıklayın.
  4. Databricks çalışma alanınızı yapılandırmak için Komut Paleti açılır. Databricks Konağı için çalışma alanı başına URL'nizi (örneğinhttps://adb-1234567890123456.7.azuredatabricks.net) girin veya seçin.
  5. Proje için bir kimlik doğrulama profili seçin. Bkz . Visual Studio Code için Databricks uzantısı için kimlik doğrulaması kurulumu.

2. Adım: Databricks uzantısına küme bilgileri ekleme ve kümeyi başlatma

  1. Yapılandırma görünümü zaten açıkken Küme seç'e tıklayın veya dişli (Kümeyi yapılandır) simgesine tıklayın.

    Kümeyi yapılandırma

  2. Komut Paleti'nde, daha önce oluşturduğunuz kümenin adını seçin.

  3. Henüz başlatılmadıysa oynat simgesine (Kümeyi Başlat) tıklayın.

3. Adım: Python kodu oluşturma ve çalıştırma

  1. Yerel bir Python kod dosyası oluşturun: Kenar çubuğunda klasör (Gezgin) simgesine tıklayın.

  2. Ana menüde Dosya Yeni Dosya'ya >tıklayın. Dosyayı demo.py adlandırın ve projenin köküne kaydedin.

  3. Aşağıdaki kodu dosyaya ekleyin ve kaydedin. Bu kod temel bir PySpark DataFrame'in içeriğini oluşturur ve görüntüler:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine ve ardından Karşıya Yükle ve Dosyayı Çalıştır'a tıklayın. Çıkış, Hata Ayıklama Konsolu görünümünde görüntülenir.

    Dosyayı karşıya yükle ve çalıştır simgesi

    Alternatif olarak, Gezgin görünümünde dosyaya demo.py sağ tıklayın ve ardından Databricks>Karşıya Yükleme ve Çalıştırma Dosyasında Çalıştır'a tıklayın.

    Bağlam menüsünden dosyayı karşıya yükleme ve çalıştırma

4. Adım: Kodu iş olarak çalıştırma

İş olarak çalıştırmak demo.py için, düzenleyici sekmeleri listesinin yanındaki Databricks'te Çalıştır simgesine ve ardından Dosyayı İş Akışı Olarak Çalıştır'a tıklayın. Çıktı, dosya düzenleyicisinin demo.py yanında ayrı bir düzenleyici sekmesinde görüntülenir.

Dosyayı simgesinden iş akışı olarak çalıştır

Alternatif olarak, Gezgin panelinde dosyaya demo.py sağ tıklayıp Databricks'te> Çalıştır Dosyayı İş Akışı Olarak Çalıştır'ı seçin.

Bağlam menüsünden dosyayı iş akışı olarak çalıştır

Sonraki adımlar

Visual Studio Code için Databricks uzantısını yerel bir Python dosyasını karşıya yüklemek ve uzaktan çalıştırmak için başarıyla kullandığınıza göre, şunları da yapabilirsiniz:

  • Uzantı kullanıcı arabirimini kullanarak Databricks Varlık Paketleri kaynaklarını ve değişkenlerini keşfedin. Bkz . Databricks Varlık Paketleri uzantısı özellikleri.
  • Databricks Connect ile Python kodunu çalıştırın veya hatalarını ayıklayın. Bkz . Visual Studio Code için Databricks uzantısı için Databricks Connect kullanarak kodda hata ayıklama.
  • Azure Databricks işi olarak bir dosya veya not defteri çalıştırın. Bkz . Visual Studio Code için Databricks uzantısını kullanarak Azure Databricks'te bir kümede veya dosyada veya not defterinde iş olarak dosya çalıştırma.
  • ile pytesttestleri çalıştırın. Bkz. Visual Studio Code için Databricks uzantısını kullanarak testleri pytest ile çalıştırma.