Migrasi ke Databricks Connect untuk Python
Artikel ini menjelaskan cara bermigrasi dari Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas untuk Python. Databricks Connect memungkinkan Anda menyambungkan ID Populer, server buku catatan, dan aplikasi kustom ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?. Untuk versi Scala artikel ini, lihat Migrasi ke Databricks Connect for Scala.
Catatan
Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.
Ikuti panduan ini untuk memigrasikan proyek kode Python atau lingkungan pengkodean yang ada dari Databricks Connect untuk Databricks Runtime 12.2 LTS dan di bawahnya ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.
Instal versi Python yang benar seperti yang tercantum dalam persyaratan penginstalan agar sesuai dengan kluster Azure Databricks Anda, jika belum diinstal secara lokal.
Tingkatkan lingkungan virtual Python Anda untuk menggunakan versi Python yang benar agar sesuai dengan kluster Anda, jika diperlukan. Untuk petunjuknya, lihat dokumentasi penyedia lingkungan virtual Anda.
Dengan mengaktifkan lingkungan virtual Anda, hapus instalan PySpark dari lingkungan virtual Anda:
pip3 uninstall pyspark
Dengan lingkungan virtual Anda masih diaktifkan, hapus instalan Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah:
pip3 uninstall databricks-connect
Dengan lingkungan virtual Anda masih diaktifkan, instal Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Catatan
Databricks merekomendasikan agar Anda menambahkan notasi "tanda bintang titik" untuk menentukan
databricks-connect==X.Y.*
alih-alihdatabricks-connect=X.Y
, untuk memastikan bahwa paket terbaru diinstal. Meskipun ini bukan persyaratan, ini membantu memastikan bahwa Anda dapat menggunakan fitur terbaru yang didukung untuk kluster tersebut.Perbarui kode Python Anda untuk menginisialisasi
spark
variabel (yang mewakili instansDatabricksSession
kelas, miripSparkSession
dengan di PySpark). Untuk contoh kode, lihat Menginstal Databricks Connect untuk Python.Migrasikan API RDD Anda untuk menggunakan API DataFrame, dan migrasikan Anda
SparkContext
untuk menggunakan alternatif.
Mengatur konfigurasi Hadoop
Pada klien Anda dapat mengatur konfigurasi Hadoop menggunakan spark.conf.set
API, yang berlaku untuk operasi SQL dan DataFrame. Konfigurasi Hadoop yang sparkContext
ditetapkan pada harus diatur dalam konfigurasi kluster atau menggunakan buku catatan. Ini karena konfigurasi yang ditetapkan sparkContext
tidak terkait dengan sesi pengguna tetapi berlaku untuk seluruh kluster.