Bagikan melalui


Tutorial: Menjalankan Python pada kluster dan sebagai pekerjaan menggunakan ekstensi Databricks untuk Visual Studio Code

Tutorial ini memandu Anda menyiapkan ekstensi Databricks untuk Visual Studio Code, lalu menjalankan Python pada kluster Azure Databricks dan sebagai pekerjaan Azure Databricks di ruang kerja jarak jauh Anda. Lihat Apa itu ekstensi Databricks untuk Visual Studio Code?.

Persyaratan

Tutorial ini mengharuskan:

  • Anda telah menginstal ekstensi Databricks untuk Visual Studio Code. Lihat Menginstal ekstensi Databricks untuk Visual Studio Code.
  • Anda memiliki kluster Azure Databricks jarak jauh untuk digunakan. Catat nama kluster. Untuk melihat kluster yang tersedia, di bilah sisi ruang kerja Azure Databricks Anda, klik Komputasi. Lihat Komputasi.

Langkah 1: Buat proyek Databricks baru

Dalam langkah ini, Anda membuat proyek Databricks baru dan mengonfigurasi koneksi dengan ruang kerja Azure Databricks jarak jauh Anda.

  1. Luncurkan Visual Studio Code, lalu klik Buka File > Folder dan buka beberapa folder kosong di komputer pengembangan lokal Anda.
  2. Di bilah samping, klik ikon logo Databricks . Ini membuka ekstensi Databricks.
  3. Dalam tampilan Konfigurasi, klik Migrasi ke Proyek Databricks.
  4. Palet Perintah untuk mengonfigurasi ruang kerja Databricks Anda terbuka. Untuk Host Databricks, masukkan atau pilih URL per ruang kerja Anda, misalnya https://adb-1234567890123456.7.azuredatabricks.net.
  5. Pilih profil autentikasi untuk proyek. Lihat Penyiapan autentikasi untuk ekstensi Databricks untuk Visual Studio Code.

Langkah 2: Tambahkan informasi kluster ke ekstensi Databricks dan mulai kluster

  1. Dengan tampilan Konfigurasi sudah terbuka, klik Pilih kluster atau klik ikon gigi (Konfigurasikan kluster).

    Mengonfigurasi kluster

  2. Di Palet Perintah, pilih nama kluster yang Anda buat sebelumnya.

  3. Klik ikon putar (Mulai Kluster) jika belum dimulai.

Langkah 3: Membuat dan menjalankan kode Python

  1. Buat file kode Python lokal: pada bilah samping, klik ikon folder (Explorer).

  2. Pada menu utama, klik File >File Baru. Beri nama file demo.py dan simpan ke akar proyek.

  3. Tambahkan kode berikut ke file lalu simpan. Kode ini membuat dan menampilkan konten PySpark DataFrame dasar:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Klik ikon Jalankan di Databricks di samping daftar tab editor, lalu klik Unggah dan Jalankan File. Output muncul di tampilan Konsol Debug.

    Unggah dan jalankan file dari ikon

    Atau, dalam tampilan Explorer, klik demo.py kanan file, lalu klik Jalankan pada Databricks>Unggah dan Jalankan File.

    Mengunggah dan menjalankan file dari menu konteks

Langkah 4: Jalankan kode sebagai pekerjaan

Untuk menjalankan demo.py sebagai pekerjaan, klik ikon Jalankan di Databricks di samping daftar tab editor, lalu klik Jalankan File sebagai Alur Kerja. Output muncul di tab editor terpisah di demo.py samping editor file.

Jalankan file sebagai alur kerja dari ikon

Atau, klik demo.py kanan file di panel Explorer, lalu pilih Jalankan di Databricks>Run File sebagai Alur Kerja.

Jalankan file sebagai alur kerja dari menu konteks

Langkah berikutnya

Sekarang setelah Anda berhasil menggunakan ekstensi Databricks untuk Visual Studio Code untuk mengunggah file Python lokal dan menjalankannya dari jarak jauh, Anda juga dapat: