Konsep Azure Databricks

Artikel ini memperkenalkan serangkaian konsep dasar yang perlu Anda pahami untuk menggunakan Azure Databricks secara efektif.

Akun dan ruang kerja

Di Azure Databricks, ruang kerja adalah penyebaran Azure Databricks di cloud yang berfungsi sebagai lingkungan bagi tim Anda untuk mengakses aset Databricks. Organisasi Anda dapat memilih untuk memiliki beberapa ruang kerja atau hanya satu, tergantung pada kebutuhannya.

Akun Azure Databricks mewakili satu entitas yang dapat menyertakan beberapa ruang kerja. Akun yang diaktifkan untuk Unity Catalog dapat digunakan untuk mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun.

Penagihan: Unit Databricks (DBA)

Tagihan Azure Databricks berdasarkan unit Databricks (DBU), unit kemampuan pemrosesan per jam berdasarkan jenis instans mesin virtual.

Lihat halaman harga Azure Databricks.

Autentikasi dan otorisasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui saat mengelola identitas Azure Databricks dan aksesnya ke aset Azure Databricks.

Pengguna

Individu unik yang memiliki akses ke sistem. Identitas pengguna diwakili oleh alamat email. Lihat Mengelola pengguna.

Perwakilan layanan

Identitas layanan untuk digunakan dengan pekerjaan, alat otomatis, dan sistem seperti skrip, aplikasi, dan platform CI/CD. Perwakilan layanan diwakili oleh ID aplikasi. Lihat Mengelola prinsipal layanan.

Grupkan

Kumpulan identitas. Grup menyederhanakan manajemen identitas, membuatnya lebih mudah untuk menetapkan akses ke ruang kerja, data, dan objek aman lainnya. Semua identitas Databricks dapat ditetapkan sebagai anggota grup. Lihat Mengelola grup

Daftar kontrol akses (ACL)

Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, serta operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses

Token akses pribadi

String buram digunakan untuk mengautentikasi ke REST API dan oleh alat di mitra Teknologi untuk terhubung ke gudang SQL. Lihat Autentikasi token akses pribadi Azure Databricks.

Token MICROSOFT Entra ID (sebelumnya Azure Active Directory) juga dapat digunakan untuk mengautentikasi ke REST API.

UI

Antarmuka pengguna Azure Databricks adalah antarmuka grafis untuk berinteraksi dengan fitur, seperti folder ruang kerja dan objek yang terkandung, objek data, dan sumber daya komputasi.

Ilmu data & teknik

Ilmu data & alat rekayasa membantu kolaborasi antara ilmuwan data, insinyur data, dan analis data. Bagian ini menjelaskan konsep dasar.

Ruang kerja

Sebuah Ruang kerja adalah lingkungan untuk mengakses semua elemen Azure Databricks Anda. Ruang kerja mengatur objek (buku catatan, pustaka, dasbor, dan eksperimen) ke dalam folder dan menyediakan akses ke objek data dan sumber daya komputasi.

Notebook

Antarmuka berbasis web untuk membuat ilmu data dan alur kerja pembelajaran mesin yang dapat berisi perintah, visualisasi, dan teks naratif yang dapat dijalankan. Lihat Pengantar notebook Databricks.

Dasbor

Antarmuka yang menyediakan akses terorganisir ke visualisasi. Lihat Dasbor di buku catatan.

Pustaka

Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak pustaka dan Anda dapat menambahkan sendiri.

Folder Git (sebelumnya Repositori)

Folder yang isinya versi bersama dengan menyinkronkannya ke repositori Git jarak jauh. Folder Databricks Git terintegrasi dengan Git untuk menyediakan kontrol sumber dan versi untuk proyek Anda.

Percobaan

Kumpulan MLflow berjalan untuk melatih model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow.

Antarmuka Azure Databricks

Bagian ini menjelaskan antarmuka yang didukung Azure Databricks, selain UI, untuk mengakses aset Anda: API dan baris perintah (CLI).

REST API

Databricks menyediakan dokumentasi API untuk ruang kerja dan akun.

CLI

Proyek sumber terbuka ini diselenggarakan pada GitHub. CLI dibangun di atas Databricks REST API.

Manajemen data

Bagian ini menjelaskan objek yang menyimpan data tempat Anda melakukan analitik dan memasukkan ke dalam algoritma pembelajaran mesin.

Sistem File Databricks - (DBFS)

Lapisan abstraksi sistem file di atas penyimpanan blob. Ini berisi direktori, yang dapat berisi file (file data, perpustakaan, dan gambar), dan direktori lainnya. DBFS secara otomatis diisi dengan beberapa himpunan data yang dapat Anda gunakan untuk mempelajari Azure Databricks. Lihat Apa itu Databricks File System (DBFS)?.

Database

Kumpulan objek data, seperti tabel atau tampilan dan fungsi, yang diatur sehingga dapat dengan mudah diakses, dikelola, dan diperbarui. Lihat Apa itu database?

Tabel

Representasi dari data terstruktur. Anda mengkueri tabel dengan Api Apache Spark dan SQL Apache Spark. Lihat Apa itu tabel?

Tabel Delta

Secara default, semua tabel yang dibuat di Azure Databricks adalah tabel Delta. Tabel Delta didasarkan pada proyek Delta Lake sumber terbuka, kerangka kerja untuk penyimpanan tabel ACID berkinerja tinggi melalui penyimpanan objek cloud. Tabel Delta menyimpan data sebagai direktori file pada penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema.

Cari tahu lebih lanjut tentang teknologi bermerk sebagai Delta.

Metastore

Komponen yang menyimpan semua informasi struktur dari berbagai tabel dan partisi di gudang data termasuk informasi jenis kolom dan kolom, serializers dan deserializers yang diperlukan untuk membaca dan menulis data, dan file yang sesuai di mana data disimpan. Lihat Apa itu metastore?

Setiap penyebaran Azure Databricks memiliki metastore Apache Hive pusat yang dapat diakses oleh semua kluster untuk mempertahankan metadata tabel. Anda juga memiliki opsi untuk menggunakan metastore Apache Hive eksternal yang ada.

Visualisasi

Presentasi grafis dari hasil menjalankan kueri. Lihat Visualisasi di buku catatan Databricks.

Manajemen komputasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan komputasi di Azure Databricks.

Kluster

Satu set sumber daya komputasi dan konfigurasi tempat Anda menjalankan buku catatan dan pekerjaan. Ada dua jenis kluster: serba guna dan pekerjaan. Lihat Komputasi.

  • Anda dapat membuat kluster serba guna menggunakan UI, CLI, atau REST API. Anda dapat menghentikan dan memulai ulang kluster serba guna secara manual. Beberapa pengguna dapat berbagi kluster tersebut untuk melakukan analisis interaktif kolaboratif.
  • Penjadwal pekerjaan Azure Databricks membuat kluster pekerjaan saat Anda menjalankan pekerjaan di kluster pekerjaan baru dan mengakhiri kluster saat pekerjaan selesai. Anda tidak dapat memulai ulang kluster pekerjaan.

Kumpulan

Satu set instans diam dan siap pakai yang mengurangi waktu mulai kluster dan penskalaan otomatis. Ketika dilampirkan ke kumpulan, kluster mengalokasikan {i>node driver Referensi konfigurasi kumpulan.

Jika kumpulan tidak memiliki sumber daya diam yang cukup untuk mengakomodasi permintaan kluster, kumpulan akan bertambah dengan mengalokasikan instans baru dari penyedia instans. Ketika kluster terlampir dihentikan, instans yang digunakan dikembalikan ke kumpulan dan dapat digunakan kembali oleh kluster yang berbeda.

Runtime bahasa umum Databricks

Kumpulan komponen inti yang berjalan pada kluster yang dikelola oleh Azure Databricks. Lihat Komputasi.* Azure Databricks memiliki runtime berikut:

  • Runtime bahasa umum Databricks mencakup Apache Spark tetapi juga menambahkan sejumlah komponen dan pembaruan yang secara substansial meningkatkan kegunaan, kinerja, dan keamanan analitik data besar.
  • Databricks Runtime for Pembelajaran Mesin dibangun di Databricks Runtime dan menyediakan infrastruktur pembelajaran mesin bawaan yang terintegrasi dengan semua kemampuan ruang kerja Azure Databricks. Berisi beberapa pustaka populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost.

Alur kerja

Kerangka kerja untuk mengembangkan dan menjalankan alur pemrosesan data:

  • Pekerjaan: Mekanisme non-interaktif untuk menjalankan buku catatan atau pustaka baik secara langsung atau terjadwal.
  • Delta Live Tables: Kerangka kerja untuk membuat alur pemrosesan data yang andal, dapat dipelihara, dan dapat diuji.

Lihat Pengantar Alur Kerja Azure Databricks.

Beban kerja

Azure Databricks mengidentifikasi dua jenis beban kerja yang tunduk pada skema penetapan harga yang berbeda: rekayasa data (pekerjaan) dan analitik data (semua tujuan).

  • Rekayasa data Beban kerja (otomatis) berjalan pada kluster pekerjaan yang dibuat oleh penjadwal kerja Azure Databricks untuk setiap beban kerja.
  • Analisis data Beban kerja (interaktif) berjalan pada kluster serba guna. Beban kerja interaktif biasanya menjalankan perintah dalam buku catatan Azure Databricks. Namun, menjalankan pekerjaan pada kluster serba guna yang ada juga diperlakukan sebagai beban kerja interaktif.

Konteks eksekusi

Status untuk lingkungan read–eval–print loop (REPL) untuk setiap bahasa pemrograman yang didukung. Bahasa yang didukung adalah Python, R, Scala, dan SQL.

Pembelajaran Mesin

Pembelajaran Mesin di Azure Databricks adalah lingkungan end-to-end terintegrasi yang menggabungkan layanan terkelola untuk pelacakan eksperimen, pelatihan model, pengembangan dan manajemen fitur, serta penyajian fitur dan model.

Percobaan

Unit utama organisasi untuk melacak pengembangan model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow. Eksperimen mengatur, menampilkan, dan mengontrol akses ke kode pelatihan model yang dicatat secara individual.

Penyimpanan Fitur

Repositori fitur terpusat. Lihat Apa itu penyimpanan fitur? Penyimpanan Fitur memungkinkan berbagi fitur dan penemuan di seluruh organisasi Anda dan juga memastikan bahwa kode komputasi fitur yang sama digunakan untuk pelatihan dan inferensi model.

Model & registri model

Sebuah Model pembelajaran mesin atau pembelajaran mendalam yang terlatih yang telah terdaftar di Registri Model.

SQL

SQL REST API

Antarmuka yang memungkinkan Anda mengotomatiskan tugas pada objek SQL. Lihat SQL API.

Dasbor

Presentasi visualisasi dan komentar data. Lihat Dasbor. Untuk dasbor warisan, lihat Dasbor warisan.

Kueri SQL

Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan kueri SQL di Azure Databricks.

  • Kueri: Pernyataan SQL yang valid.
  • Gudang SQL: Sumber daya komputasi yang dapat digunakan untuk mengeksekusi kueri SQL.
  • Riwayat kueri: Daftar kueri yang dieksekusi dan karakteristik performanya.