Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Bagian ini menyediakan panduan untuk mengembangkan buku catatan dan pekerjaan di Azure Databricks menggunakan bahasa Python, termasuk tutorial untuk alur kerja dan tugas umum, dan tautan ke API, pustaka, dan alat.
Untuk memulai:
- Impor kode: Impor kode Anda sendiri dari file atau repositori Git atau coba tutorial yang tercantum di bawah ini. Databricks merekomendasikan pembelajaran menggunakan Notebook Databricks interaktif.
- Jalankan kode Anda pada kluster: Buat kluster Anda sendiri, atau pastikan Anda memiliki izin untuk menggunakan kluster bersama. Lampirkan notebook Anda ke kluster, dan jalankan notebook.
- Kemudian Anda dapat:
- Bekerja dengan himpunan data yang lebih besar menggunakan Apache Spark
- Menambahkan visualisasi
- Mengotomatiskan beban kerja Anda sebagai pekerjaan
- Menggunakan pembelajaran mesin untuk menganalisis data Anda
- Kembangkan dalam IDEs
- Jalankan dan kelola pengujian unit Python di ruang kerja
Tutorial
Tutorial di bawah ini menyediakan contoh kode dan notebook untuk mempelajari tentang alur kerja umum. Lihat Mengimpor buku catatan untuk instruksi tentang mengimpor contoh buku catatan ke ruang kerja Anda.
Rekayasa Data
- Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames menyediakan panduan untuk membantu Anda mempelajari tentang Apache Spark DataFrames untuk persiapan dan analitik data.
- Tutorial: Membuat dan mengelola tabel Delta Lake.
- Tutorial: Membangun alur ETL menggunakan penangkapan data perubahan.
Ilmu data dan pembelajaran mesin
- Mulai menggunakan Apache Spark DataFrames untuk persiapan dan analitik data: Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames
- Tutorial: Model ML klasik end-to-end pada Azure Databricks. Untuk contoh tambahan, lihat tutorial AI dan pembelajaran mesin.
- AutoML memungkinkan Anda memulai dengan cepat dengan mengembangkan model pembelajaran mesin pada himpunan data Anda sendiri. Pendekatan kotak kacanya menghasilkan notebook dengan alur kerja pembelajaran mesin lengkap, yang dapat Anda kloning, ubah, dan jalankan ulang.
- Mengelola siklus hidup model di Unity Catalog
Debug di buku catatan Python
Contoh buku catatan mengilustrasikan cara menggunakan debugger Python (pdb) di buku catatan Databricks. Untuk menggunakan debugger Python, Anda harus menjalankan Databricks Runtime 11.3 LTS atau lebih tinggi.
Dengan Databricks Runtime 12.2 LTS ke atas, Anda dapat menggunakan penjelajah variable untuk melacak nilai variabel Python saat ini di UI notebook. Anda dapat menggunakan eksplorasi variabel untuk mengamati nilai variabel Python ketika melewati titik henti.
Python buku catatan contoh debugger
Catatan
breakpoint()
tidak didukung di IPython dan dengan demikian tidak berfungsi di notebook Databricks. Anda dapat menggunakan import pdb; pdb.set_trace() alih-alih breakpoint().
API Python
Kode Python yang berjalan di luar Databricks umumnya dapat berjalan di dalam Databricks, dan sebaliknya. Jika Anda memiliki kode yang ada, cukup impor ke Databricks untuk memulai. Lihat Mengelola kode dengan notebook dan folder Databricks Git di bawah ini untuk detailnya.
Databricks dapat menjalankan mesin tunggal dan beban kerja Python terdistribusi. Untuk komputasi mesin tunggal, Anda dapat menggunakan API dan pustaka Python seperti biasa; misalnya, panda dan scikit-learn akan "hanya berfungsi." Untuk beban kerja Python terdistribusi, Databricks menawarkan dua API populer di luar kotak: PySpark dan Pandas API di Spark.
API PySpark
PySpark adalah API Python resmi untuk Apache Spark dan menggabungkan kekuatan Python dan Apache Spark. PySpark lebih fleksibel daripada PANDAS API di Spark dan menyediakan dukungan dan fitur yang luas untuk ilmu data dan fungsionalitas teknik seperti Spark SQL, Structured Streaming, MLLib, dan GraphX.
API Panda pada Spark
Catatan
Proyek sumber terbuka Koalas sekarang merekomendasikan untuk beralih ke API Pandas di Spark. API Pandas di Spark tersedia pada kluster yang menjalankan Databricks Runtime 10.0 ke atas. Untuk kluster yang menjalankan Databricks Runtime 9.1 LTS dan di bawahnya, gunakan Koala sebagai gantinya.
pandas adalah paket Python yang umum digunakan oleh ilmuwan data untuk analisis dan manipulasi data. Namun, pandas tidak dapat beradaptasi untuk menangani data besar. PANDAS API di Spark mengisi celah ini dengan menyediakan API setara panda yang berfungsi di Apache Spark. API sumber terbuka ini adalah pilihan ideal bagi ilmuwan data yang terbiasa dengan panda tetapi bukan Apache Spark.
Mengelola kode dengan notebook dan folder Databricks Git
notebook Databricks mendukung Python. Notebook ini menyediakan fungsionalitas yang mirip dengan Jupyter, tetapi dengan penambahan seperti visualisasi bawaan menggunakan big data, integrasi Apache Spark untuk penelusuran kesalahan dan pemantauan performa, dan integrasi MLflow untuk melacak eksperimen pembelajaran mesin. Mulailah dengan mengimpor buku catatan. Setelah Anda memiliki akses ke kluster, Anda bisa melampirkan buku catatan ke kluster dan menjalankan buku catatan.
Kiat
Untuk mengatur ulang status notebook Anda, mulai ulang kernel iPython. Untuk pengguna Jupyter, opsi "hidupkan ulang kernel" di Jupyter sesuai dengan memulai sesi baru di Databricks. Untuk memulai ulang kernel di buku catatan Python, klik pemilih compute di toolbar buku catatan dan arahkan kursor ke kluster terpasang atau gudang SQL dalam daftar untuk menampilkan menu samping. Pilih Sesi baru. Ini memulai sesi baru, yang memulai ulang proses Python.
Folder Databricks Git memungkinkan pengguna menyinkronkan notebook dan file lain dengan repositori Git. Folder Databricks Git membantu penerapan versi dan kolaborasi kode, dan dapat menyederhanakan impor repositori kode lengkap ke Azure Databricks, melihat versi buku catatan sebelumnya, dan mengintegrasikan dengan pengembangan IDE. Mulailah dengan mengkloning repositori Git jarak jauh. Anda kemudian dapat membuka atau membuat buku catatan dengan klon repositori, melampirkan buku catatan ke kluster, dan menjalankan buku catatan.
Kluster dan pustaka
Azure Databricks compute menyediakan manajemen komputasi untuk kluster dengan ukuran apa pun: dari kluster node tunggal hingga kluster besar. Anda dapat menyesuaikan perangkat keras dan pustaka kluster sesuai dengan kebutuhan Anda. Ilmuwan data umumnya akan mulai bekerja baik dengan membuat kluster atau menggunakan kluster bersama yang ada. Setelah Anda memiliki akses ke kluster, Anda dapat melampirkan buku catatan ke kluster atau menjalankan pekerjaan pada kluster.
- Untuk beban kerja kecil yang hanya memerlukan simpul tunggal, ilmuwan data dapat menggunakan komputasi simpul tunggal untuk penghematan biaya.
- Untuk tips terperinci, lihat Rekomendasi konfigurasi komputasi
- Administrator dapat menyiapkan kebijakan kluster untuk menyederhanakan dan memandu pembuatan kluster.
Azure Databricks cluster menggunakan Databricks Runtime, yang menyediakan banyak pustaka populer secara langsung, termasuk Apache Spark, Delta Lake, pandas, dan banyak lagi. Anda juga dapat menginstal pustaka Python pihak ketiga atau kustom tambahan untuk digunakan dengan buku catatan dan pekerjaan.
- Mulailah dengan pustaka default dalam catatan rilis versi dan kompatibilitas Databricks Runtime. Gunakan Databricks Runtime untuk Machine Learning untuk beban kerja machine learning. Untuk daftar lengkap pustaka yang telah diinstal sebelumnya, lihat catatan rilis, versi, dan kompatibilitas Databricks Runtime.
- Kustomisasi lingkungan Anda menggunakan pustaka Python yang khusus untuk Notebook, yang memungkinkan Anda memodifikasi buku catatan atau lingkungan pekerjaan Anda dengan pustaka dari PyPI atau repositori lainnya. Perintah ajaib
%pip install my_librarymenginstalmy_libraryke semua simpul di kluster anda yang saat ini terpasang, namun tidak mengganggu beban kerja lain pada komputasi dengan mode akses standar. - Instal pustaka non-Python sebagai pustaka Compute-scoped sesuai kebutuhan.
- Untuk detail selengkapnya, lihat Menginstal pustaka.
Visualisasi
Azure Databricks Python notebook memiliki dukungan bawaan untuk banyak jenis visualisasi. Anda juga dapat menggunakan visualisasi warisan.
Anda juga dapat memvisualisasikan data menggunakan pustaka pihak ketiga; beberapa telah diinstal sebelumnya di Databricks Runtime, tetapi Anda juga dapat menginstal pustaka kustom. Opsinya meliputi:
Pekerjaan
Anda dapat mengotomatiskan beban kerja Python seperti yang dijadwalkan atau dipicu jobs di Databricks. Pekerjaan dapat menjalankan buku catatan, skrip Python, dan file roda Python.
- Buat dan perbarui pekerjaan menggunakan UI
Databricks atau Databricks REST API . - Databricks Python SDK memungkinkan Anda membuat, mengedit, dan menghapus pekerjaan secara terprogram.
- Databricks CLI menyediakan antarmuka baris perintah yang nyaman untuk mengotomatiskan pekerjaan.
Kiat
Untuk menjadwalkan skrip Python alih-alih buku catatan, gunakan bidang spark_python_task di bawah tasks dalam tubuh permintaan pembuatan pekerjaan.
Pembelajaran Mesin
Databricks mendukung berbagai beban kerja pembelajaran mesin (ML), termasuk ML tradisional pada data tabular, pembelajaran mendalam untuk visi komputer dan pemrosesan bahasa alami, sistem rekomendasi, analitik grafik, dan banyak lagi. Untuk informasi umum tentang pembelajaran mesin di Databricks, lihat AI dan pembelajaran mesin di Databricks.
Untuk algoritma ML, Anda dapat menggunakan pustaka yang telah diinstal sebelumnya di Databricks Runtime untuk Machine Learning, yang mencakup alat Python populer seperti scikit-learn, TensorFlow, Keras, PyTorch, Apache Spark MLlib, dan XGBoost. Anda juga dapat menginstal pustaka kustom.
Untuk operasi pembelajaran mesin (MLOps), Azure Databricks menyediakan layanan terkelola untuk pustaka open source MLflow. Dengan MLflow Tracking , Anda dapat merekam pengembangan model dan menyimpan model dalam format yang dapat digunakan kembali. Anda dapat menggunakan MLflow Model Registry untuk mengelola dan mengotomatiskan promosi model terhadap produksi. Jobs dan Model Serving memungkinkan untuk meng-host model sebagai pekerjaan batch dan streaming, serta sebagai endpoint REST. Untuk informasi dan contoh selengkapnya, lihat MLflow pada Databricks atau MLflow Python dokumen API.
Untuk mulai menggunakan beban kerja pembelajaran mesin umum, lihat halaman berikut ini:
- Pelatihan dan pelacakan scikit-learn dengan MLflow: tutorial berdurasi 10 menit: pembelajaran mesin di Databricks menggunakan scikit-learn
- Melatih model pembelajaran mendalam: Pembelajaran mendalam
- Penyetelan hiperparameter: Penyetelan hiperparameter dengan Optuna
- Analitik grafik: Cara menggunakan GraphFrames pada Azure Databricks
ID, alat pengembang, dan SDK
Selain mengembangkan kode Python dalam notebook Azure Databricks, Anda dapat mengembangkan secara eksternal menggunakan lingkungan pengembangan terintegrasi (IDEs) seperti PyCharm, Jupyter, dan Visual Studio Code. Untuk menyinkronkan pekerjaan antara lingkungan pengembangan eksternal dan Databricks, ada beberapa opsi:
- Kode: Anda dapat menyinkronkan kode menggunakan Git. Lihat folder Git Azure Databricks.
- Libraries and Jobs: Anda dapat membuat pustaka (seperti file roda Python) secara eksternal dan mengunggahnya ke Databricks. Pustaka tersebut dapat diimpor dalam buku catatan Databricks, atau bisa digunakan untuk membuat tugas. Lihat Menginstal pustaka dan Tugas Lakeflow.
- Eksekusi komputer jarak jauh: Anda dapat menjalankan kode dari IDE lokal Anda untuk pengembangan dan pengujian interaktif. IDE dapat berkomunikasi dengan Azure Databricks untuk menjalankan Apache Spark dan komputasi besar pada kluster Azure Databricks. Lihat Databricks Connect.
Databricks menyediakan sekumpulan SDK, termasuk Python SDK, yang mendukung otomatisasi dan integrasi dengan alat eksternal. Anda dapat menggunakan SDK Databricks untuk mengelola sumber daya seperti kluster dan pustaka, kode dan objek ruang kerja lainnya, beban kerja dan pekerjaan, dan banyak lagi. Lihat SDK Databricks.
Untuk informasi selengkapnya tentang IDEs, alat pengembang, dan SDK, lihat Alat pengembangan lokal.
Sumber Daya Tambahan:
- Databricks Academy menawarkan kursus mandiri dan dipimpin instruktur tentang banyak topik.
- Databricks Labs menyediakan alat untuk pengembangan Python di Databricks seperti plugin pytest dan plugin pylint. Azure Databricks juga menawarkan fitur untuk membantu mengelola file pengujian unit Python di ruang kerja.
- Fitur yang mendukung interoperabilitas antara PySpark dan panda meliputi:
- Python dan alat konektivitas database SQL meliputi:
- Konektor SQL Databricks untuk Python memungkinkan Anda menggunakan kode Python untuk menjalankan perintah SQL pada sumber daya Azure Databricks.
- pyodbc memungkinkan Anda untuk terhubung dari kode Python lokal Anda melalui ODBC ke data yang disimpan di data lakehouse Databricks.
- Faq dan tips untuk memindahkan beban kerja Python ke Databricks dapat ditemukan di Databricks Knowledge Base.