Menggunakan Spark di notebook

Selesai

Anda dapat menjalankan berbagai jenis aplikasi di Spark, termasuk kode dalam skrip Python atau Scala, kode Java yang dikompilasi sebagai Java Archive (JAR), dan lainnya. Spark umumnya digunakan dalam dua jenis beban kerja:

  • Pekerjaan pemrosesan batch atau streaming untuk menyerap, membersihkan, dan mengubah data - sering kali berjalan sebagai bagian dari alur otomatis.
  • Sesi analitik interaktif untuk mengeksplorasi, menganalisis, dan memvisualisasikan data.

Pengeditan buku catatan & dasar-dasar kode

Notebook Databricks adalah ruang kerja utama untuk ilmu data, teknik, dan analitik. Mereka dibangun di sekitar sel, yang dapat berisi kode atau teks yang diformat (Markdown). Pendekatan berbasis sel ini memudahkan Anda untuk bereksperimen, menguji, dan menjelaskan pekerjaan Anda di satu tempat. Anda bisa menjalankan sel tunggal, sekelompok sel, atau seluruh buku catatan, dengan output seperti tabel, bagan, atau teks biasa yang muncul tepat di bawah sel yang dijalankan. Sel dapat diatur ulang, diciutkan, atau dikosongkan agar buku catatan Anda tetap teratur dan dapat dibaca.

Cuplikan layar buku catatan di Azure Databricks.

Kekuatan utama notebook Databricks adalah dukungan multi-bahasa. Meskipun default sering kali Python, Anda dapat beralih ke SQL, Scala, atau R dalam notebook yang sama dengan menggunakan perintah ajaib seperti %sql atau %scala. Fleksibilitas ini berarti Anda dapat menulis logika ETL di SQL, kode pembelajaran mesin di Python, lalu memvisualisasikan hasil dengan R—semuanya dalam satu alur kerja. Databricks juga menyediakan pelengkapan otomatis dan penyorotan sintaksis, sehingga lebih mudah untuk menangkap kesalahan dan mempercepat pengkodan.

Sebelum menjalankan kode apa pun, notebook harus dilampirkan ke kluster. Tanpa kluster terlampir, sel kode tidak dapat dijalankan. Anda dapat memilih kluster yang sudah ada dari toolbar buku catatan atau membuat yang baru, dan Anda dapat dengan mudah melepaskan dan memasang kembali buku catatan sesuai kebutuhan. Koneksi inilah yang memungkinkan notebook Anda memanfaatkan daya pemrosesan terdistribusi di Azure Databricks.

Menggunakan Asisten Databricks

Asisten Databricks adalah pendamping pengkodian bertenaga AI yang dibangun langsung ke dalam notebook. Tujuannya adalah untuk membantu Anda menulis, memahami, dan meningkatkan kode secara lebih efisien dengan memanfaatkan konteks dari buku catatan dan ruang kerja Anda. Ini dapat menghasilkan kode baru dari permintaan bahasa alami, menjelaskan logika kompleks, menyarankan perbaikan untuk kesalahan, mengoptimalkan performa, dan bahkan merefaktor atau memformat kode Anda untuk keterbacaan. Ini membuatnya berharga tidak hanya untuk pemula yang mempelajari Spark atau SQL, tetapi juga untuk pengguna berpengalaman yang ingin mempercepat pengembangan dan mengurangi pekerjaan berulang.

Asisten sadar konteks, yang berarti dapat menggunakan informasi tentang notebook, kluster, dan lingkungan data Anda untuk memberikan saran yang disesuaikan. Misalnya, jika ruang kerja Anda mengaktifkan Katalog Unity, ruang kerja dapat menarik metadata seperti nama tabel, nama kolom, dan skema saat menulis kueri SQL. Ini memungkinkan Anda untuk bertanya sesuatu seperti "Pilih jumlah penjualan rata-rata menurut wilayah dari tabel penjualan" dan mendapatkan kode SQL yang berfungsi yang sesuai dengan model data Anda yang sebenarnya. Demikian pula, dalam Python, Anda dapat memintanya untuk membuat transformasi data atau pekerjaan Spark tanpa harus mengingat setiap tanda tangan fungsi dari memori.

Anda berinteraksi dengan asisten dengan dua cara utama:

  1. Perintah bahasa alami—Anda dapat mengetik instruksi bahasa Inggris biasa di antarmuka seperti obrolan, dan itu akan menyisipkan kode ke dalam buku catatan Anda.

  2. Perintah garis miring—perintah cepat seperti /explain, /fix, atau /optimize yang memungkinkan Anda bertindak berdasarkan kode yang dipilih. Misalnya, /explain memecah fungsi kompleks menjadi langkah-langkah yang lebih sederhana, /fix dapat mencoba mengatasi kesalahan sintaksis atau runtime, dan /optimize menyarankan peningkatan performa seperti mempartisi ulang atau menggunakan fungsi Spark yang efisien.

Cuplikan layar Asisten AI di Buku Catatan Azure Databricks.

Fitur yang kuat adalah mode edit, di mana asisten dapat mengusulkan perubahan struktural yang lebih besar di beberapa sel. Misalnya, mungkin merefaktor logika berulang ke dalam satu fungsi yang dapat digunakan kembali atau merestrukturisasi alur kerja untuk keterbacaan yang lebih baik. Anda selalu memiliki kontrol: saran tidak merusak, yang berarti Anda dapat meninjau dan menerima atau menolaknya sebelum menerapkan perubahan pada buku catatan Anda.

Berbagi dan memodulasi kode

Untuk menghindari duplikasi dan meningkatkan pemeliharaan, Databricks mendukung pengelompokan kode yang dapat digunakan kembali ke dalam file di ruang kerja, seperti modul .py, yang dapat diimpor oleh notebook. Ada mekanisme untuk mengatur buku catatan (yaitu, menjalankan buku catatan dari buku catatan lain, atau pekerjaan dengan beberapa tugas), sehingga Anda dapat membangun alur kerja yang menggunakan fungsi atau modul bersama. Menggunakan %run adalah cara yang lebih sederhana untuk menyertakan notebook lain, meskipun dengan beberapa batasan.

Pemecahan Masalah, Riwayat Versi, dan Membatalkan Kesalahan

Databricks menawarkan debugger interaktif bawaan untuk notebook Python: Anda dapat mengatur titik henti, menelusuri eksekusi, memeriksa variabel, dan menavigasi melalui eksekusi kode langkah demi langkah. Ini membantu mengisolasi bug secara lebih efektif dibandingkan dengan debugging cetak/log.

Cuplikan layar dengan anotasi dari toolbar debugger di buku catatan Azure Databricks.

Notebook juga mempertahankan riwayat versi secara otomatis: Anda dapat melihat rekam jepret sebelumnya, memberikan deskripsi versi, memulihkan versi lama, atau menghapus/menghapus riwayat. Jika Anda menggunakan integrasi Git, Anda dapat menyinkronkan dan membuat versi notebook/file di repositori Anda.

Cuplikan layar riwayat versi pemulihan di buku catatan Azure Databricks.

Petunjuk / Saran

Untuk informasi selengkapnya tentang bekerja dengan buku catatan di Azure Databricks, lihat artikel Notebook di dokumentasi Azure Databricks.