Bagikan melalui


Pemecahan Masalah Databricks Connect untuk Python

Catatan

Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.

Artikel ini menyediakan informasi pemecahan masalah untuk Databricks Connect untuk Python. Databricks Connect memungkinkan Anda menyambungkan ID Populer, server buku catatan, dan aplikasi kustom ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?. Untuk versi Scala artikel ini, lihat Pemecahan Masalah Databricks Connect untuk Scala.

Kesalahan: StatusCode.UNAVAILABLE, StatusCode.UNKNOWN, resolusi DNS gagal, atau Header http2 diterima dengan status 500

Masalah: Ketika Anda mencoba menjalankan kode dengan Databricks Connect, Anda mendapatkan pesan kesalahan yang berisi string seperti StatusCode.UNAVAILABLE, , StatusCode.UNKNOWNDNS resolution failed, atau Received http2 header with status: 500.

Kemungkinan penyebab: Databricks Connect tidak dapat menjangkau kluster Anda.

Solusi yang direkomendasikan:

  • Periksa untuk memastikan bahwa nama instans ruang kerja Anda sudah benar. Jika Anda menggunakan variabel lingkungan, periksa untuk memastikan variabel lingkungan terkait tersedia dan benar di komputer pengembangan lokal Anda.
  • Periksa untuk memastikan bahwa ID kluster Anda sudah benar. Jika Anda menggunakan variabel lingkungan, periksa untuk memastikan variabel lingkungan terkait tersedia dan benar di komputer pengembangan lokal Anda.
  • Periksa untuk memastikan bahwa kluster Anda memiliki versi kluster kustom yang benar yang kompatibel dengan Databricks Connect.

Ketidakcocokan versi Python

Periksa versi Python yang Anda gunakan secara lokal memiliki setidaknya rilis minor yang sama dengan versi pada kluster (misalnya, 3.10.11 versus 3.10.10 ok, 3.10 versus 3.9 tidak).

Jika Anda memiliki beberapa versi Python yang dipasang secara lokal, pastikan bahwa Databricks Connect menggunakan yang benar dengan mengatur PYSPARK_PYTHON variabel lingkungan (misalnya, PYSPARK_PYTHON=python3).

Penginstalan PySpark yang berkonflik

databricks-connectPaket berkonflik dengan PySpark. Setelah keduanya dipasang akan menyebabkan kesalahan saat menginsialisasi konteks Spark di Python. Ini dapat bermanifestasi dalam beberapa cara, termasuk kesalahan "stream terkorup" atau "kelas tidak ditemukan". Jika Anda memasang PySpark di lingkungan Python Anda, pastikan itu dihapus sebelum memasang databricks-connect. Setelah menghapus pemasangan PySpark, pastikan untuk memasang ulang paket Koneksi Databricks sepenuhnya:

pip3 uninstall pyspark
pip3 uninstall databricks-connect
pip3 install --upgrade "databricks-connect==14.0.*"  # or X.Y.* to match your specific cluster version.

Entri yang bentrok atau Hilang PATH untuk binari

Ada kemungkinan PATH Anda dikonfigurasi sehingga perintah seperti spark-shell akan menjalankan beberapa biner lain yang dipasang sebelumnya, bukan yang disediakan dengan Databricks Connect. Anda harus memastikan binari Koneksi Databricks diutamakan, atau menghapus yang dipasang sebelumnya.

Jika Anda tidak dapat menjalankan perintah seperti spark-shell, mungkin juga PATH Anda tidak diatur pip3 install secara otomatis dan Anda harus menambahkan dir penginstalan bin ke PATH Anda secara manual. Anda dapat menggunakan Databricks Connect dengan IDE meskipun ini tidak diatur.

Nama file, nama direktori, atau sintaks label volume salah pada Windows

Jika Anda menggunakan Databricks Connect di Windows dan lihat:

The filename, directory name, or volume label syntax is incorrect.

Databricks Connect diinstal ke direktori dengan ruang di jalur Anda. Anda dapat mengatasi hal ini dengan memasang ke jalur direktori tanpa spasi, atau mengonfigurasi jalur Anda menggunakan formulir nama pendek.