Bagikan melalui


Migrasi ke Databricks Connect untuk Python

Artikel ini menjelaskan cara bermigrasi dari Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas untuk Python. Databricks Connect memungkinkan Anda menyambungkan IDE populer, server notebook, dan aplikasi kustom ke klaster Azure Databricks. Lihat Apa itu Databricks Connect?.

Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.

Untuk versi Scala artikel ini, lihat Migrasi ke Databricks Connect for Scala.

Memigrasikan proyek Python Anda

Untuk memigrasikan proyek kode Python atau lingkungan pengkodean yang ada dari Databricks Connect untuk Databricks Runtime 12.2 LTS dan di bawahnya ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:

  1. Instal versi Python yang benar seperti yang tercantum dalam persyaratan penginstalan agar sesuai dengan kluster Azure Databricks Anda, jika belum diinstal secara lokal.

  2. Tingkatkan lingkungan virtual Python Anda untuk menggunakan versi Python yang benar agar sesuai dengan kluster Anda, jika diperlukan. Untuk petunjuknya, lihat dokumentasi penyedia lingkungan virtual Anda.

  3. Dengan mengaktifkan lingkungan virtual Anda, hapus instalan PySpark dari lingkungan virtual Anda:

    pip3 uninstall pyspark
    
  4. Dengan lingkungan virtual Anda masih diaktifkan, hapus instalan Databricks Connect untuk Databricks Runtime versi 12.2 LTS dan sebelumnya.

    pip3 uninstall databricks-connect
    
  5. Dengan lingkungan virtual Anda masih diaktifkan, instal Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Catatan

    Databricks merekomendasikan agar Anda menambahkan notasi "tanda bintang titik" untuk menentukan databricks-connect==X.Y.* alih-alih databricks-connect=X.Y, untuk memastikan bahwa paket terbaru diinstal. Meskipun ini bukan persyaratan, ini membantu memastikan bahwa Anda dapat menggunakan fitur terbaru yang didukung untuk kluster tersebut.

  6. Perbarui kode Python Anda untuk menginisialisasi variabel spark (yang mewakili instansiasi kelas DatabricksSession, mirip dengan SparkSession di PySpark). Lihat Konfigurasi komputasi untuk Databricks Connect.

  7. Migrasikan API RDD Anda untuk menggunakan API DataFrame, dan migrasikan SparkContext Anda untuk menggunakan alternatif.

Mengatur konfigurasi Hadoop

Pada klien Anda dapat mengatur konfigurasi Hadoop menggunakan spark.conf.set API, yang berlaku untuk operasi SQL dan DataFrame. Konfigurasi Hadoop yang terdapat pada sparkContext harus diatur dalam konfigurasi kluster atau menggunakan notebook. Ini karena konfigurasi yang ditetapkan sparkContext tidak terkait dengan sesi pengguna tetapi berlaku untuk seluruh kluster.