Konsep Azure Databricks
Artikel ini memperkenalkan serangkaian konsep dasar yang perlu Anda pahami untuk menggunakan Azure Databricks secara efektif.
Akun dan ruang kerja
Di Azure Databricks, ruang kerja adalah penyebaran Azure Databricks di cloud yang berfungsi sebagai lingkungan bagi tim Anda untuk mengakses aset Databricks. Organisasi Anda dapat memilih untuk memiliki beberapa ruang kerja atau hanya satu, tergantung pada kebutuhannya.
Akun Azure Databricks mewakili satu entitas yang dapat menyertakan beberapa ruang kerja. Akun yang diaktifkan untuk Unity Catalog dapat digunakan untuk mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun.
Penagihan: Unit Databricks (DBA)
Tagihan Azure Databricks berdasarkan unit Databricks (DBU), unit kemampuan pemrosesan per jam berdasarkan jenis instans mesin virtual.
Lihat halaman harga Azure Databricks.
Autentikasi dan otorisasi
Bagian ini menjelaskan konsep yang perlu Anda ketahui saat mengelola identitas Azure Databricks dan aksesnya ke aset Azure Databricks.
Pengguna
Individu unik yang memiliki akses ke sistem. Identitas pengguna diwakili oleh alamat email. Lihat Mengelola pengguna.
Perwakilan layanan
Identitas layanan untuk digunakan dengan pekerjaan, alat otomatis, dan sistem seperti skrip, aplikasi, dan platform CI/CD. Perwakilan layanan diwakili oleh ID aplikasi. Lihat Mengelola prinsipal layanan.
Grupkan
Kumpulan identitas. Grup menyederhanakan manajemen identitas, membuatnya lebih mudah untuk menetapkan akses ke ruang kerja, data, dan objek aman lainnya. Semua identitas Databricks dapat ditetapkan sebagai anggota grup. Lihat Mengelola grup
Daftar kontrol akses (ACL)
Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, serta operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses
Token akses pribadi
String buram digunakan untuk mengautentikasi ke REST API dan oleh alat di mitra Teknologi untuk terhubung ke gudang SQL. Lihat Autentikasi token akses pribadi Azure Databricks.
Token MICROSOFT Entra ID (sebelumnya Azure Active Directory) juga dapat digunakan untuk mengautentikasi ke REST API.
UI
Antarmuka pengguna Azure Databricks adalah antarmuka grafis untuk berinteraksi dengan fitur, seperti folder ruang kerja dan objek yang terkandung, objek data, dan sumber daya komputasi.
Ilmu data & teknik
Ilmu data & alat rekayasa membantu kolaborasi antara ilmuwan data, insinyur data, dan analis data. Bagian ini menjelaskan konsep dasar.
Ruang kerja
Sebuah Ruang kerja adalah lingkungan untuk mengakses semua elemen Azure Databricks Anda. Ruang kerja mengatur objek (buku catatan, pustaka, dasbor, dan eksperimen) ke dalam folder dan menyediakan akses ke objek data dan sumber daya komputasi.
Notebook
Antarmuka berbasis web untuk membuat ilmu data dan alur kerja pembelajaran mesin yang dapat berisi perintah, visualisasi, dan teks naratif yang dapat dijalankan. Lihat Pengantar notebook Databricks.
Dasbor
Antarmuka yang menyediakan akses terorganisir ke visualisasi. Lihat Dasbor di buku catatan.
Pustaka
Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak pustaka dan Anda dapat menambahkan sendiri.
Folder Git (sebelumnya Repositori)
Folder yang isinya versi bersama dengan menyinkronkannya ke repositori Git jarak jauh. Folder Databricks Git terintegrasi dengan Git untuk menyediakan kontrol sumber dan versi untuk proyek Anda.
Percobaan
Kumpulan MLflow berjalan untuk melatih model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow.
Antarmuka Azure Databricks
Bagian ini menjelaskan antarmuka yang didukung Azure Databricks, selain UI, untuk mengakses aset Anda: API dan baris perintah (CLI).
REST API
Databricks menyediakan dokumentasi API untuk ruang kerja dan akun.
CLI
Proyek sumber terbuka ini diselenggarakan pada GitHub. CLI dibangun di atas Databricks REST API.
Manajemen data
Bagian ini menjelaskan objek yang menyimpan data tempat Anda melakukan analitik dan memasukkan ke dalam algoritma pembelajaran mesin.
Sistem File Databricks - (DBFS)
Lapisan abstraksi sistem file di atas penyimpanan blob. Ini berisi direktori, yang dapat berisi file (file data, perpustakaan, dan gambar), dan direktori lainnya. DBFS secara otomatis diisi dengan beberapa himpunan data yang dapat Anda gunakan untuk mempelajari Azure Databricks. Lihat Apa itu Databricks File System (DBFS)?.
Database
Kumpulan objek data, seperti tabel atau tampilan dan fungsi, yang diatur sehingga dapat dengan mudah diakses, dikelola, dan diperbarui. Lihat Apa itu database?
Tabel
Representasi dari data terstruktur. Anda mengkueri tabel dengan Api Apache Spark dan SQL Apache Spark. Lihat Apa itu tabel?
Tabel Delta
Secara default, semua tabel yang dibuat di Azure Databricks adalah tabel Delta. Tabel Delta didasarkan pada proyek Delta Lake sumber terbuka, kerangka kerja untuk penyimpanan tabel ACID berkinerja tinggi melalui penyimpanan objek cloud. Tabel Delta menyimpan data sebagai direktori file pada penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema.
Cari tahu lebih lanjut tentang teknologi bermerk sebagai Delta.
Metastore
Komponen yang menyimpan semua informasi struktur dari berbagai tabel dan partisi di gudang data termasuk informasi jenis kolom dan kolom, serializers dan deserializers yang diperlukan untuk membaca dan menulis data, dan file yang sesuai di mana data disimpan. Lihat Apa itu metastore?
Setiap penyebaran Azure Databricks memiliki metastore Apache Hive pusat yang dapat diakses oleh semua kluster untuk mempertahankan metadata tabel. Anda juga memiliki opsi untuk menggunakan metastore Apache Hive eksternal yang ada.
Visualisasi
Presentasi grafis dari hasil menjalankan kueri. Lihat Visualisasi di buku catatan Databricks.
Manajemen komputasi
Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan komputasi di Azure Databricks.
Kluster
Satu set sumber daya komputasi dan konfigurasi tempat Anda menjalankan buku catatan dan pekerjaan. Ada dua jenis kluster: serba guna dan pekerjaan. Lihat Komputasi.
- Anda dapat membuat kluster serba guna menggunakan UI, CLI, atau REST API. Anda dapat menghentikan dan memulai ulang kluster serba guna secara manual. Beberapa pengguna dapat berbagi kluster tersebut untuk melakukan analisis interaktif kolaboratif.
- Penjadwal pekerjaan Azure Databricks membuat kluster pekerjaan saat Anda menjalankan pekerjaan di kluster pekerjaan baru dan mengakhiri kluster saat pekerjaan selesai. Anda tidak dapat memulai ulang kluster pekerjaan.
Kumpulan
Satu set instans diam dan siap pakai yang mengurangi waktu mulai kluster dan penskalaan otomatis. Ketika dilampirkan ke kumpulan, kluster mengalokasikan {i>node driver Referensi konfigurasi kumpulan.
Jika kumpulan tidak memiliki sumber daya diam yang cukup untuk mengakomodasi permintaan kluster, kumpulan akan bertambah dengan mengalokasikan instans baru dari penyedia instans. Ketika kluster terlampir dihentikan, instans yang digunakan dikembalikan ke kumpulan dan dapat digunakan kembali oleh kluster yang berbeda.
Runtime bahasa umum Databricks
Kumpulan komponen inti yang berjalan pada kluster yang dikelola oleh Azure Databricks. Lihat Komputasi.* Azure Databricks memiliki runtime berikut:
- Runtime bahasa umum Databricks mencakup Apache Spark tetapi juga menambahkan sejumlah komponen dan pembaruan yang secara substansial meningkatkan kegunaan, kinerja, dan keamanan analitik data besar.
- Databricks Runtime for Pembelajaran Mesin dibangun di Databricks Runtime dan menyediakan infrastruktur pembelajaran mesin bawaan yang terintegrasi dengan semua kemampuan ruang kerja Azure Databricks. Berisi beberapa pustaka populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost.
Alur kerja
Kerangka kerja untuk mengembangkan dan menjalankan alur pemrosesan data:
- Pekerjaan: Mekanisme non-interaktif untuk menjalankan buku catatan atau pustaka baik secara langsung atau terjadwal.
- Delta Live Tables: Kerangka kerja untuk membuat alur pemrosesan data yang andal, dapat dipelihara, dan dapat diuji.
Lihat Pengantar Alur Kerja Azure Databricks.
Beban kerja
Azure Databricks mengidentifikasi dua jenis beban kerja yang tunduk pada skema penetapan harga yang berbeda: rekayasa data (pekerjaan) dan analitik data (semua tujuan).
- Rekayasa data Beban kerja (otomatis) berjalan pada kluster pekerjaan yang dibuat oleh penjadwal kerja Azure Databricks untuk setiap beban kerja.
- Analisis data Beban kerja (interaktif) berjalan pada kluster serba guna. Beban kerja interaktif biasanya menjalankan perintah dalam buku catatan Azure Databricks. Namun, menjalankan pekerjaan pada kluster serba guna yang ada juga diperlakukan sebagai beban kerja interaktif.
Konteks eksekusi
Status untuk lingkungan read–eval–print loop (REPL) untuk setiap bahasa pemrograman yang didukung. Bahasa yang didukung adalah Python, R, Scala, dan SQL.
Pembelajaran Mesin
Pembelajaran Mesin di Azure Databricks adalah lingkungan end-to-end terintegrasi yang menggabungkan layanan terkelola untuk pelacakan eksperimen, pelatihan model, pengembangan dan manajemen fitur, serta penyajian fitur dan model.
Percobaan
Unit utama organisasi untuk melacak pengembangan model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow. Eksperimen mengatur, menampilkan, dan mengontrol akses ke kode pelatihan model yang dicatat secara individual.
Penyimpanan Fitur
Repositori fitur terpusat. Lihat Apa itu penyimpanan fitur? Penyimpanan Fitur memungkinkan berbagi fitur dan penemuan di seluruh organisasi Anda dan juga memastikan bahwa kode komputasi fitur yang sama digunakan untuk pelatihan dan inferensi model.
Model & registri model
Sebuah Model pembelajaran mesin atau pembelajaran mendalam yang terlatih yang telah terdaftar di Registri Model.
SQL
SQL REST API
Antarmuka yang memungkinkan Anda mengotomatiskan tugas pada objek SQL. Lihat SQL API.
Dasbor
Presentasi visualisasi dan komentar data. Lihat Dasbor. Untuk dasbor warisan, lihat Dasbor warisan.
Kueri SQL
Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan kueri SQL di Azure Databricks.
- Kueri: Pernyataan SQL yang valid.
- Gudang SQL: Sumber daya komputasi yang dapat digunakan untuk mengeksekusi kueri SQL.
- Riwayat kueri: Daftar kueri yang dieksekusi dan karakteristik performanya.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk