Konsep Azure Databricks

Artikel
02/04/2025

Artikel ini memperkenalkan konsep dasar yang perlu Anda pahami untuk menggunakan Azure Databricks secara efektif.

Akun dan ruang kerja

Di Azure Databricks, ruang kerja adalah penyebaran Azure Databricks di cloud yang berfungsi sebagai lingkungan bagi tim Anda untuk mengakses aset Databricks. Organisasi Anda dapat memilih untuk memiliki beberapa ruang kerja atau hanya satu, tergantung pada kebutuhannya.

Akun Azure Databricks mewakili satu entitas yang dapat menyertakan beberapa ruang kerja. Akun yang diaktifkan untuk Unity Catalog dapat digunakan untuk mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun.

Penagihan: Unit Databricks (DBA)

Tagihan Azure Databricks berdasarkan unit Databricks (DBUs), yang merupakan unit kemampuan pemrosesan per jam berdasarkan tipe instans VM.

Lihat halaman harga Azure Databricks.

Autentikasi dan otorisasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui saat mengelola identitas Azure Databricks dan aksesnya ke aset Azure Databricks.

Pengguna

Individu unik yang memiliki akses ke sistem. Identitas pengguna diwakili oleh alamat email. Lihat Mengelola pengguna.

Prinsipal Layanan

Identitas layanan untuk digunakan dengan tugas, alat otomatis, dan sistem seperti skrip, aplikasi, dan platform CI/CD. Prinsipal layanan diwakili oleh ID aplikasi. Lihat Kelola entitas layanan.

Grup

Kumpulan identitas. Grup menyederhanakan manajemen identitas, membuatnya lebih mudah untuk menetapkan akses ke ruang kerja, data, dan objek aman lainnya. Semua identitas Databricks dapat ditetapkan sebagai anggota grup. Lihat Kelola grup.

Daftar kontrol akses (ACL)

Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, serta operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses.

Token akses pribadi (PAT)

Token akses pribadi adalah string yang digunakan untuk mengautentikasi panggilan REST API, mitra teknologi koneksi, dan alat lainnya. Lihat Autentikasi token akses pribadi Azure Databricks.

Token ID Microsoft Entra juga dapat digunakan untuk mengautentikasi ke REST API.

Antarmuka Azure Databricks

Bagian ini menjelaskan antarmuka untuk mengakses aset Anda di Azure Databricks.

UI

Antarmuka pengguna Azure Databricks adalah antarmuka grafis untuk berinteraksi dengan fitur, seperti folder ruang kerja dan objek yang terkandung, objek data, dan sumber daya komputasi.

REST API

Databricks REST API menyediakan titik akhir untuk memodifikasi atau meminta informasi tentang akun Azure Databricks dan objek ruang kerja. Lihat referensi akun dan referensi ruang kerja.

SQL REST API

SQL REST API memungkinkan Anda mengotomatiskan tugas pada objek SQL. Lihat SQL API.

CLI

Databricks CLI di-host di GitHub. CLI dibangun di atas Databricks REST API.

Manajemen data

Bagian ini menjelaskan alat dan objek logis yang digunakan untuk menata dan mengatur data di Azure Databricks. Lihat objek database di Azure Databricks.

Katalog Unity

Unity Catalog adalah solusi tata kelola terpadu untuk aset data dan AI di Azure Databricks yang menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Databricks. Lihat Apa itu Katalog Unity?.

Katalog

Katalog adalah kontainer tingkat tertinggi untuk mengatur dan mengisolasi data di Azure Databricks. Anda dapat berbagi katalog di seluruh ruang kerja dalam wilayah dan akun yang sama. Lihat Apa yang dimaksud dengan katalog di Azure Databricks?.

Skema

Skema, juga dikenal sebagai database, terkandung dalam katalog dan menyediakan tingkat organisasi yang lebih terperinci. Mereka berisi objek database dan aset AI, seperti volume, tabel, fungsi, dan model. Lihat Apa itu skema di Azure Databricks?.

Meja

Tabel menyusun dan mengatur akses ke data terstruktur. Anda melakukan kueri pada tabel dengan Apache Spark SQL dan API Apache Spark. Lihat Apa itu tabel?.

Tampilkan

Tampilan adalah objek yang hanya untuk dibaca yang berasal dari satu atau beberapa tabel dan tampilan. Tampilan menyimpan kueri yang ditentukan untuk tabel. Silakan lihat Apa itu tampilan?.

Jilid

Volume mewakili volume logis penyimpanan di lokasi penyimpanan objek cloud dan mengatur akses ke data non-tabular. Databricks merekomendasikan penggunaan volume untuk mengelola semua akses ke data non-tabular pada penyimpanan objek cloud. Lihat Apa yang dimaksud dengan volume Katalog Unity?.

Tabel Delta

Secara default, semua tabel yang dibuat di Azure Databricks adalah tabel Delta. Tabel Delta didasarkan pada proyek sumber terbuka Delta Lake, sebuah kerangka kerja untuk penyimpanan tabel ACID dengan kinerja tinggi di atas penyimpanan objek cloud. Tabel Delta menyimpan data sebagai direktori file pada penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema.

Cari tahu lebih lanjut tentang teknologi bermerk sebagai Delta.

Metastore

Katalog Unity menyediakan metastore pada tingkat akun yang mendaftarkan metadata mengenai data, AI, serta izin terkait katalog, skema, dan tabel. Lihat Metastores.

Azure Databricks menyediakan metastore Hive warisan untuk pelanggan yang belum menggunakan Katalog Unity. Lihat Kontrol akses tabel metastore Apache Hive (warisan).

Eksplorer Katalog

Catalog Explorer memungkinkan Anda menjelajahi dan mengelola data dan aset AI, termasuk skema (database), tabel, model, volume (data non-tabular), fungsi, dan model ML terdaftar. Anda dapat menggunakannya untuk menemukan objek data dan pemilik, memahami hubungan data di seluruh tabel, dan mengelola izin dan berbagi. Lihat Apa itu Catalog Explorer?.

akar DBFS

Penting

Menyimpan dan mengakses data menggunakan root DBFS atau mount DBFS adalah pola yang usang dan tidak direkomendasikan oleh Databricks. Sebagai gantinya, Databricks merekomendasikan penggunaan Unity Catalog untuk mengelola akses ke semua data. Lihat Apa itu Katalog Unity?.

Akar DBFS adalah lokasi penyimpanan yang tersedia untuk semua pengguna secara default. Lihat Apa itu DBFS?.

Manajemen komputasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan komputasi di Azure Databricks.

Kluster

Sekumpulan sumber daya dan konfigurasi komputasi tempat Anda menjalankan buku catatan dan pekerjaan. Ada dua jenis kluster: serba guna dan pekerjaan. Lihat Komputasi.

Anda dapat membuat kluster serba guna menggunakan UI, CLI, atau REST API. Anda dapat menghentikan dan memulai ulang kluster serba guna secara manual. Beberapa pengguna dapat berbagi kluster tersebut untuk melakukan analisis interaktif kolaboratif.
Penjadwal pekerjaan Azure Databricks membuat kluster pekerjaan saat Anda menjalankan pekerjaan pada kluster pekerjaan baru dan mengakhiri kluster saat pekerjaan selesai. Anda tidak dapat memulai ulang kluster pekerjaan.

Kolam

Sekumpulan instans yang tidak aktif dan siap pakai yang mengurangi waktu untuk memulai dan penskalaan otomatis kluster. Ketika dilampirkan ke kumpulan, kluster mengalokasikan node pengemudi dan node pekerja dari kumpulan. Lihat Referensi konfigurasi pool.

Jika kumpulan tidak memiliki sumber daya diam yang cukup untuk mengakomodasi permintaan kluster, kumpulan akan bertambah dengan mengalokasikan instans baru dari penyedia instans. Ketika kluster terlampir dihentikan, instans yang digunakan dikembalikan ke kumpulan dan dapat digunakan kembali oleh kluster yang berbeda.

Runtime bahasa umum Databricks

Kumpulan komponen inti yang berjalan pada kluster yang dikelola oleh Azure Databricks. Lihat Komputasi. Azure Databricks memiliki runtime berikut:

Databricks Runtime mencakup Apache Spark tetapi juga menambahkan sejumlah komponen dan pembaruan yang secara substansial meningkatkan kegunaan, kinerja, dan keamanan analitik big data.
Databricks Runtime for Pembelajaran Mesin dibangun di Databricks Runtime dan menyediakan infrastruktur pembelajaran mesin bawaan yang terintegrasi dengan semua kemampuan ruang kerja Azure Databricks. Berisi beberapa pustaka populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost.

Alur kerja

Workflows workspace UI menyediakan entri ke UI Job dan DLT Pipelines, sebagai alat yang memungkinkan Anda mengatur dan menjadwalkan alur kerja.

Pekerjaan

Mekanisme non-interaktif untuk mengatur dan menjadwalkan buku catatan, pustaka, dan tugas lainnya. Lihat Ikhtisar orkestrasi di Databricks

Jaringan Pipa

Alur DLT menyediakan kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Lihat Apa itu DLT?.

Beban kerja

Beban kerja adalah jumlah kemampuan pemrosesan yang diperlukan untuk melakukan tugas atau grup tugas. Azure Databricks mengidentifikasi dua jenis beban kerja: rekayasa data (pekerjaan) dan analitik data (semua tujuan).

Rekayasa data Beban kerja (otomatis) berjalan pada kluster pekerjaan yang dibuat oleh penjadwal kerja Azure Databricks untuk setiap beban kerja.
Analisis data Beban kerja (interaktif) berjalan pada kluster serba guna. Beban kerja interaktif biasanya menjalankan perintah dalam buku catatan Azure Databricks. Namun, menjalankan pekerjaan pada kluster serba guna yang ada juga diperlakukan sebagai beban kerja interaktif.

Konteks eksekusi

Status untuk lingkungan read–eval–print loop (REPL) untuk setiap bahasa pemrograman yang didukung. Bahasa yang didukung adalah Python, R, Scala, dan SQL.

Rekayasa Data

Alat rekayasa data membantu kolaborasi antara ilmuwan data, insinyur data, analis data, dan insinyur pembelajaran mesin.

Ruang kerja

Sebuah Ruang kerja adalah lingkungan untuk mengakses semua elemen Azure Databricks Anda. Ruang kerja mengatur objek (buku catatan, pustaka, dasbor, dan eksperimen) ke dalam folder dan menyediakan akses ke objek data dan sumber daya komputasi.

Notebook

Antarmuka berbasis web untuk membuat ilmu data dan alur kerja pembelajaran mesin yang dapat berisi perintah, visualisasi, dan teks naratif yang dapat dijalankan. Lihat Pengantar notebook Databricks.

Perpustakaan

Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup berbagai pustaka, dan Anda juga dapat mengunggah pustaka Anda sendiri. Lihat Pustaka.

Folder Git (sebelumnya Repos)

Sebuah folder yang isinya dikoordinasikan versinya dengan menyinkronkannya ke repositori Git jarak jauh. Folder Git Databricks terintegrasi dengan Git untuk menyediakan kontrol versi sumber bagi proyek Anda.

AI dan pembelajaran mesin

Databricks menyediakan lingkungan end-to-end terintegrasi dengan layanan terkelola untuk mengembangkan dan menyebarkan AI dan aplikasi pembelajaran mesin.

Mosaik AI

Nama merek untuk produk dan layanan dari Databricks Mosaic AI Research, tim peneliti dan insinyur yang bertanggung jawab atas terobosan terbesar Databricks dalam AI generatif. Produk Mosaic AI mencakup fitur ML dan AI di Databricks. Lihat Penelitian Mosaic.

Waktu proses pembelajaran mesin

Untuk membantu Anda mengembangkan model ML dan AI, Databricks menyediakan Databricks Runtime untuk Pembelajaran Mesin, yang mengotomatiskan pembuatan komputasi dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum. Ia juga memiliki dukungan GPU bawaan yang sudah dikonfigurasi termasuk driver dan pustaka pendukung. Telusuri informasi tentang rilis runtime terbaru dari versi dan kompatibilitas catatan rilis Databricks Runtime.

Percobaan

Kumpulan MLflow berjalan untuk melatih model pembelajaran mesin. Lihat Mengatur jalannya pelatihan dengan eksperimen MLflow.

Fitur

Fitur adalah komponen penting dari model ML. Penyimpanan fitur memungkinkan berbagi fitur dan penemuan di seluruh organisasi Anda dan juga memastikan bahwa kode komputasi fitur yang sama digunakan untuk pelatihan dan inferensi model. Lihat Rekayasa fitur dan penyajian.

Model GenAI

Databricks mendukung eksplorasi, pengembangan, dan penyebaran model AI generatif, termasuk:

Taman bermain AI adalah lingkungan seperti obrolan di ruang kerja tempat Anda dapat menguji, memasukkan perintah, dan membandingkan LLM. Lihat Berinteraksi dengan LLM dan prototipe aplikasi GenAI di AI Playground.
Sekumpulan model fondasi bawaan yang telah dikonfigurasi sebelumnya yang dapat Anda kueri:
- Lihat API Model Dasar berbasis bayar per token.
- Lihat [Disarankan] Menyebarkan model fondasi dari Unity Catalog untuk model dasar yang dapat Anda layani dengan satu klik.
LLM yang dihosting pihak ketiga, yang disebut model eksternal. Model-model ini dimaksudkan untuk digunakan apa adanya.
Kemampuan untuk menyesuaikan model fondasi untuk mengoptimalkan performanya untuk aplikasi spesifik Anda (sering disebut penyempurnaan). Lihat Penyempurnaan Model Foundation.

Registri model

Databricks menyediakan versi MLflow Model Registry yang dihosting di Unity Catalog. Model yang terdaftar di Unity Catalog mewarisi kontrol akses terpusat, silsilah data, dan penemuan dan akses lintas ruang kerja. Lihat Mengelola siklus hidup model di Unity Catalog.

Penyajian model

Mosaic AI Model Serving menyediakan antarmuka terpadu untuk menyebarkan, mengatur, dan mengkueri model AI. Setiap model yang Anda layani tersedia sebagai REST API yang dapat Anda integrasikan ke dalam aplikasi web atau klien Anda. Dengan Mosaic AI Model Serving, Anda dapat menjalankan model Anda sendiri, model fondasi, atau model pihak ketiga yang di-host di luar Databricks. Lihat Mengimplementasikan model menggunakan Layanan Model Mosaic AI.

Pergudangan data

Pergudangan data mengacu pada pengumpulan dan penyimpanan data dari berbagai sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Databricks SQL adalah kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake Anda yang ada. Lihat Apa itu pergudangan data di Azure Databricks?.

Kueri

Kueri adalah pernyataan SQL valid yang memungkinkan Anda berinteraksi dengan data Anda. Anda dapat menulis kueri menggunakan editor SQL dalam platform, atau menyambungkan menggunakan konektor, driver, atau API SQL. Lihat Mengakses dan mengelola kueri tersimpan untuk mempelajari selengkapnya tentang cara bekerja dengan kueri.

Gudang SQL

Sumber daya komputasi tempat Anda menjalankan kueri SQL. Ada tiga jenis gudang SQL: Klasik, Pro, dan Tanpa Server. Azure Databricks merekomendasikan penggunaan gudang tanpa server jika tersedia. Lihat Jenis gudang SQL untuk membandingkan fitur yang tersedia untuk setiap jenis gudang.

Sejarah Pencarian

Daftar kueri yang dijalankan dan karakteristik performanya. Riwayat kueri memungkinkan Anda memantau performa kueri, membantu Anda mengidentifikasi hambatan dan mengoptimalkan runtime kueri. Lihat Riwayat kueri.

Visualisasi

Presentasi grafis dari hasil menjalankan kueri. Lihat Visualisasi di buku catatan Databricks.

Dasbor

Presentasi visualisasi dan komentar data. Anda dapat menggunakan dasbor untuk mengirim laporan secara otomatis kepada siapa pun di akun Azure Databricks Anda. Gunakan Asisten Databricks untuk membantu Anda membangun visualisasi berdasarkan perintah bahasa alami. Lihat Dasbor. Anda juga bisa membuat dasbor dari buku catatan. Lihat Dasbor di notebook.

Untuk dashboard lawas, lihat Dashboard lawas.