Bagikan melalui


Menggunakan Eclipse dengan PyDev dan Databricks Koneksi untuk Python

Catatan

Artikel ini membahas Databricks Koneksi untuk Databricks Runtime 13.0 ke atas.

Artikel ini membahas cara menggunakan Databricks Koneksi untuk Scala dan Eclipse dengan PyDev. Databricks Koneksi memungkinkan Anda menyambungkan ID populer, server notebook, dan aplikasi kustom lainnya ke kluster Azure Databricks. Lihat Apa itu Databricks Koneksi?.

Catatan

Sebelum mulai menggunakan Databricks Koneksi, Anda harus menyiapkan klien Databricks Koneksi.

Untuk menggunakan Databricks Koneksi dan Eclipse dengan PyDev, ikuti instruksi berikut.

  1. Mulai Eclipse.
  2. Buat proyek: klik File > Proyek Baru > Proyek > PyDev > PyDev Project, lalu klik Berikutnya.
  3. Tentukan Nama proyek.
  4. Untuk konten Project, tentukan jalur ke lingkungan virtual Python Anda.
  5. Klik Silakan konfigurasikan penerjemah sebelum melakukan proceding.
  6. Klik Konfigurasi manual.
  7. Klik Telusuri Baru > untuk python/pypy exe.
  8. Telusuri dan pilih jalur lengkap ke penerjemah Python yang dirujuk dari lingkungan virtual, lalu klik Buka.
  9. Dalam dialog Pilih penerjemah, klik OK.
  10. Dalam dialog Pilihan yang diperlukan, klik OK.
  11. Dalam dialog Preferensi, klik Terapkan dan Tutup.
  12. Dalam dialog Proyek PyDev, klik Selesai.
  13. Klik Buka Perspektif.
  14. Tambahkan ke proyek file kode Python (.py) yang berisi kode contoh atau kode Anda sendiri. Jika Anda menggunakan kode Anda sendiri, minimal Anda harus menginisialisasi DatabricksSession seperti yang ditunjukkan dalam kode contoh.
  15. Dengan file kode Python terbuka, atur titik henti apa pun di mana Anda ingin kode Anda dijeda saat berjalan.
  16. Untuk menjalankan kode, klik Jalankan Jalankan>. Semua kode Python berjalan secara lokal, sementara semua kode PySpark yang melibatkan operasi DataFrame berjalan pada kluster di ruang kerja Azure Databricks jarak jauh dan respons eksekusi dikirim kembali ke pemanggil lokal.
  17. Untuk men-debug kode, klik Jalankan > Debug. Semua kode Python di-debug secara lokal, sementara semua kode PySpark terus berjalan pada kluster di ruang kerja Azure Databricks jarak jauh. Kode mesin Spark inti tidak dapat di-debug langsung dari klien.

Untuk instruksi eksekusi dan debug yang lebih spesifik, lihat Menjalankan Program.