Bagikan melalui


Migrasi ke Databricks Connect untuk Python

Artikel ini menjelaskan cara bermigrasi dari Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas untuk Python. Databricks Connect memungkinkan Anda menyambungkan ID Populer, server buku catatan, dan aplikasi kustom ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?. Untuk versi Scala artikel ini, lihat Migrasi ke Databricks Connect for Scala.

Catatan

Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.

Ikuti panduan ini untuk memigrasikan proyek kode Python atau lingkungan pengkodean yang ada dari Databricks Connect untuk Databricks Runtime 12.2 LTS dan di bawahnya ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.

  1. Instal versi Python yang benar seperti yang tercantum dalam persyaratan penginstalan agar sesuai dengan kluster Azure Databricks Anda, jika belum diinstal secara lokal.

  2. Tingkatkan lingkungan virtual Python Anda untuk menggunakan versi Python yang benar agar sesuai dengan kluster Anda, jika diperlukan. Untuk petunjuknya, lihat dokumentasi penyedia lingkungan virtual Anda.

  3. Dengan mengaktifkan lingkungan virtual Anda, hapus instalan PySpark dari lingkungan virtual Anda:

    pip3 uninstall pyspark
    
  4. Dengan lingkungan virtual Anda masih diaktifkan, hapus instalan Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah:

    pip3 uninstall databricks-connect
    
  5. Dengan lingkungan virtual Anda masih diaktifkan, instal Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Catatan

    Databricks merekomendasikan agar Anda menambahkan notasi "tanda bintang titik" untuk menentukan databricks-connect==X.Y.* alih-alih databricks-connect=X.Y, untuk memastikan bahwa paket terbaru diinstal. Meskipun ini bukan persyaratan, ini membantu memastikan bahwa Anda dapat menggunakan fitur terbaru yang didukung untuk kluster tersebut.

  6. Perbarui kode Python Anda untuk menginisialisasi spark variabel (yang mewakili instans DatabricksSession kelas, mirip SparkSession dengan di PySpark). Untuk contoh kode, lihat Menginstal Databricks Connect untuk Python.

  7. Migrasikan API RDD Anda untuk menggunakan API DataFrame, dan migrasikan Anda SparkContext untuk menggunakan alternatif.

Mengatur konfigurasi Hadoop

Pada klien Anda dapat mengatur konfigurasi Hadoop menggunakan spark.conf.set API, yang berlaku untuk operasi SQL dan DataFrame. Konfigurasi Hadoop yang sparkContext ditetapkan pada harus diatur dalam konfigurasi kluster atau menggunakan buku catatan. Ini karena konfigurasi yang ditetapkan sparkContext tidak terkait dengan sesi pengguna tetapi berlaku untuk seluruh kluster.