Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan cara bermigrasi dari Databricks Connect untuk Databricks Runtime 12.2 LTS ke bawah ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas untuk Python. Databricks Connect memungkinkan Anda menyambungkan IDE populer, server notebook, dan aplikasi kustom ke klaster Azure Databricks. Lihat Apa itu Databricks Connect?.
Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.
Untuk versi Scala artikel ini, lihat Migrasi ke Databricks Connect for Scala.
Memigrasikan proyek Python Anda
Untuk memigrasikan proyek kode Python atau lingkungan pengkodean yang ada dari Databricks Connect untuk Databricks Runtime 12.2 LTS dan di bawahnya ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:
Instal versi Python yang benar seperti yang tercantum dalam persyaratan penginstalan agar sesuai dengan kluster Azure Databricks Anda, jika belum diinstal secara lokal.
Tingkatkan lingkungan virtual Python Anda untuk menggunakan versi Python yang benar agar sesuai dengan kluster Anda, jika diperlukan. Untuk petunjuknya, lihat dokumentasi penyedia lingkungan virtual Anda.
Dengan mengaktifkan lingkungan virtual Anda, hapus instalan PySpark dari lingkungan virtual Anda:
pip3 uninstall pysparkDengan lingkungan virtual Anda masih diaktifkan, hapus instalan Databricks Connect untuk Databricks Runtime versi 12.2 LTS dan sebelumnya.
pip3 uninstall databricks-connectDengan lingkungan virtual Anda masih diaktifkan, instal Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Catatan
Databricks merekomendasikan agar Anda menambahkan notasi "tanda bintang titik" untuk menentukan
databricks-connect==X.Y.*alih-alihdatabricks-connect=X.Y, untuk memastikan bahwa paket terbaru diinstal. Meskipun ini bukan persyaratan, ini membantu memastikan bahwa Anda dapat menggunakan fitur terbaru yang didukung untuk kluster tersebut.Perbarui kode Python Anda untuk menginisialisasi variabel
spark(yang mewakili instansiasi kelasDatabricksSession, mirip denganSparkSessiondi PySpark). Lihat Konfigurasi komputasi untuk Databricks Connect.Migrasikan API RDD Anda untuk menggunakan API DataFrame, dan migrasikan
SparkContextAnda untuk menggunakan alternatif.
Mengatur konfigurasi Hadoop
Pada klien Anda dapat mengatur konfigurasi Hadoop menggunakan spark.conf.set API, yang berlaku untuk operasi SQL dan DataFrame. Konfigurasi Hadoop yang terdapat pada sparkContext harus diatur dalam konfigurasi kluster atau menggunakan notebook. Ini karena konfigurasi yang ditetapkan sparkContext tidak terkait dengan sesi pengguna tetapi berlaku untuk seluruh kluster.