Konsep Azure Databricks
Artikel ini memperkenalkan konsep dasar yang perlu Anda pahami untuk menggunakan Azure Databricks secara efektif.
Akun dan ruang kerja
Di Azure Databricks, ruang kerja adalah penyebaran Azure Databricks di cloud yang berfungsi sebagai lingkungan bagi tim Anda untuk mengakses aset Databricks. Organisasi Anda dapat memilih untuk memiliki beberapa ruang kerja atau hanya satu, tergantung pada kebutuhannya.
Akun Azure Databricks mewakili satu entitas yang dapat menyertakan beberapa ruang kerja. Akun yang diaktifkan untuk Unity Catalog dapat digunakan untuk mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun.
Penagihan: Unit Databricks (DBA)
Tagihan Azure Databricks berdasarkan unit Databricks (DBA), yang merupakan unit kemampuan pemrosesan per jam berdasarkan jenis instans VM.
Lihat halaman harga Azure Databricks.
Autentikasi dan otorisasi
Bagian ini menjelaskan konsep yang perlu Anda ketahui saat mengelola identitas Azure Databricks dan aksesnya ke aset Azure Databricks.
Pengguna
Individu unik yang memiliki akses ke sistem. Identitas pengguna diwakili oleh alamat email. Lihat Mengelola pengguna.
Perwakilan layanan
Identitas layanan untuk digunakan dengan pekerjaan, alat otomatis, dan sistem seperti skrip, aplikasi, dan platform CI/CD. Perwakilan layanan diwakili oleh ID aplikasi. Lihat Mengelola prinsipal layanan.
Grupkan
Kumpulan identitas. Grup menyederhanakan manajemen identitas, membuatnya lebih mudah untuk menetapkan akses ke ruang kerja, data, dan objek aman lainnya. Semua identitas Databricks dapat ditetapkan sebagai anggota grup. Lihat Kelola grup.
Daftar kontrol akses (ACL)
Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, serta operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses.
Token akses pribadi (PAT)
Token akses pribadi adalah string yang digunakan untuk mengautentikasi panggilan REST API, Koneksi mitra teknologi, dan alat lainnya. Lihat Autentikasi token akses pribadi Azure Databricks.
Token ID Microsoft Entra juga dapat digunakan untuk mengautentikasi ke REST API.
Antarmuka Azure Databricks
Bagian ini menjelaskan antarmuka untuk mengakses aset Anda di Azure Databricks.
UI
Antarmuka pengguna Azure Databricks adalah antarmuka grafis untuk berinteraksi dengan fitur, seperti folder ruang kerja dan objek yang terkandung, objek data, dan sumber daya komputasi.
REST API
Databricks REST API menyediakan titik akhir untuk memodifikasi atau meminta informasi tentang akun Azure Databricks dan objek ruang kerja. Lihat referensi akun dan referensi ruang kerja.
SQL REST API
SQL REST API memungkinkan Anda mengotomatiskan tugas pada objek SQL. Lihat SQL API.
CLI
Databricks CLI dihosting di GitHub. CLI dibangun di atas Databricks REST API.
Manajemen data
Bagian ini menjelaskan objek logis yang menyimpan data yang Anda umpankan ke dalam algoritma pembelajaran mesin dan tempat Anda melakukan analitik. Selain itu, ini menjelaskan UI dalam platform untuk menjelajahi dan mengelola objek data.
Katalog Unity
Unity Catalog adalah solusi tata kelola terpadu untuk aset data dan AI di Azure Databricks yang menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Databricks. Lihat Apakah itu Katalog Unity?.
akar DBFS
Penting
Menyimpan dan mengakses data menggunakan pemasangan Akar DBFS atau DBFS adalah pola yang tidak digunakan lagi dan tidak direkomendasikan oleh Databricks. Sebagai gantinya, Databricks merekomendasikan penggunaan Unity Catalog untuk mengelola akses ke semua data. Lihat Apakah itu Katalog Unity?.
Akar DBFS adalah lokasi penyimpanan yang tersedia untuk semua pengguna secara default. Lihat Apa itu DBFS?.
Penjelajah Katalog
Catalog Explorer memungkinkan Anda menjelajahi dan mengelola data dan aset AI, termasuk skema (database), tabel, model, volume (data non-tabular), fungsi, dan model ML terdaftar. Anda dapat menggunakannya untuk menemukan objek data dan pemilik, memahami hubungan data di seluruh tabel, dan mengelola izin dan berbagi. Lihat Apa itu Catalog Explorer?.
Database
Kumpulan objek data, seperti tabel atau tampilan dan fungsi, yang diatur sehingga dapat dengan mudah diakses, dikelola, dan diperbarui. Lihat Apa itu skema di Azure Databricks?
Tabel
Representasi dari data terstruktur. Anda mengkueri tabel dengan Api Apache Spark dan SQL Apache Spark. Lihat Apa itu tabel dan tampilan?.
Tabel Delta
Secara default, semua tabel yang dibuat di Azure Databricks adalah tabel Delta. Tabel Delta didasarkan pada proyek Delta Lake sumber terbuka, kerangka kerja untuk penyimpanan tabel ACID berkinerja tinggi melalui penyimpanan objek cloud. Tabel Delta menyimpan data sebagai direktori file pada penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema.
Cari tahu lebih lanjut tentang teknologi bermerk sebagai Delta.
Metastore
Komponen yang menyimpan semua informasi struktur berbagai tabel dan partisi di gudang data termasuk informasi jenis kolom dan kolom, serializer dan deserializer yang diperlukan untuk membaca dan menulis data, dan file yang sesuai tempat data disimpan. Lihat Metastores
Setiap penyebaran Azure Databricks memiliki metastore Apache Hive pusat yang dapat diakses oleh semua kluster untuk mempertahankan metadata tabel. Anda juga memiliki opsi untuk menggunakan metastore Apache Hive eksternal yang ada.
Manajemen komputasi
Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan komputasi di Azure Databricks.
Kluster
Satu set sumber daya komputasi dan konfigurasi tempat Anda menjalankan buku catatan dan pekerjaan. Ada dua jenis kluster: serba guna dan pekerjaan. Lihat Komputasi.
- Anda dapat membuat kluster serba guna menggunakan UI, CLI, atau REST API. Anda dapat menghentikan dan memulai ulang kluster serba guna secara manual. Beberapa pengguna dapat berbagi kluster tersebut untuk melakukan analisis interaktif kolaboratif.
- Penjadwal pekerjaan Azure Databricks membuat kluster pekerjaan saat Anda menjalankan pekerjaan pada kluster pekerjaan baru dan mengakhiri kluster saat pekerjaan selesai. Anda tidak dapat memulai ulang kluster pekerjaan.
Kumpulan
Satu set instans diam dan siap pakai yang mengurangi waktu mulai kluster dan penskalaan otomatis. Ketika dilampirkan ke kumpulan, kluster mengalokasikan {i>node driver Referensi konfigurasi kumpulan.
Jika kumpulan tidak memiliki sumber daya diam yang cukup untuk mengakomodasi permintaan kluster, kumpulan akan bertambah dengan mengalokasikan instans baru dari penyedia instans. Ketika kluster terlampir dihentikan, instans yang digunakan dikembalikan ke kumpulan dan dapat digunakan kembali oleh kluster yang berbeda.
Runtime bahasa umum Databricks
Kumpulan komponen inti yang berjalan pada kluster yang dikelola oleh Azure Databricks. Lihat Komputasi. Azure Databricks memiliki runtime berikut:
- Runtime bahasa umum Databricks mencakup Apache Spark tetapi juga menambahkan sejumlah komponen dan pembaruan yang secara substansial meningkatkan kegunaan, kinerja, dan keamanan analitik data besar.
- Databricks Runtime for Pembelajaran Mesin dibangun di Databricks Runtime dan menyediakan infrastruktur pembelajaran mesin bawaan yang terintegrasi dengan semua kemampuan ruang kerja Azure Databricks. Berisi beberapa pustaka populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost.
Alur kerja
UI ruang kerja Alur Kerja menyediakan entri ke UI Alur Pekerjaan dan DLT, yang merupakan alat yang memungkinkan Anda mengatur dan menjadwalkan alur kerja.
Pekerjaan
Mekanisme non-interaktif untuk mengatur dan menjadwalkan buku catatan, pustaka, dan tugas lainnya. Lihat Menjadwalkan dan mengatur alur kerja
Pipelines
Alur Tabel Langsung Delta menyediakan kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Lihat Apa itu Tabel Langsung Delta?.
Beban kerja
Beban kerja adalah jumlah kemampuan pemrosesan yang diperlukan untuk melakukan tugas atau grup tugas. Azure Databricks mengidentifikasi dua jenis beban kerja: rekayasa data (pekerjaan) dan analitik data (semua tujuan).
- Rekayasa data Beban kerja (otomatis) berjalan pada kluster pekerjaan yang dibuat oleh penjadwal kerja Azure Databricks untuk setiap beban kerja.
- Analisis data Beban kerja (interaktif) berjalan pada kluster serba guna. Beban kerja interaktif biasanya menjalankan perintah dalam buku catatan Azure Databricks. Namun, menjalankan pekerjaan pada kluster serba guna yang ada juga diperlakukan sebagai beban kerja interaktif.
Konteks eksekusi
Status untuk lingkungan read–eval–print loop (REPL) untuk setiap bahasa pemrograman yang didukung. Bahasa yang didukung adalah Python, R, Scala, dan SQL.
Rekayasa Data
Alat rekayasa data membantu kolaborasi antara ilmuwan data, insinyur data, analis data, dan insinyur pembelajaran mesin.
Ruang kerja
Sebuah Ruang kerja adalah lingkungan untuk mengakses semua elemen Azure Databricks Anda. Ruang kerja mengatur objek (buku catatan, pustaka, dasbor, dan eksperimen) ke dalam folder dan menyediakan akses ke objek data dan sumber daya komputasi.
Notebook
Antarmuka berbasis web untuk membuat ilmu data dan alur kerja pembelajaran mesin yang dapat berisi perintah, visualisasi, dan teks naratif yang dapat dijalankan. Lihat Pengantar notebook Databricks.
Pustaka
Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak pustaka, dan Anda juga dapat mengunggahnya sendiri. Lihat Pustaka.
Folder Git (sebelumnya Repositori)
Folder yang isinya versi bersama dengan menyinkronkannya ke repositori Git jarak jauh. Folder Databricks Git terintegrasi dengan Git untuk menyediakan kontrol sumber dan versi untuk proyek Anda.
AI dan pembelajaran mesin
Databricks menyediakan lingkungan end-to-end terintegrasi dengan layanan terkelola untuk mengembangkan dan menyebarkan AI dan aplikasi pembelajaran mesin.
Mosaik AI
Nama merek untuk produk dan layanan dari Databricks Mosaic AI Research, tim peneliti dan insinyur yang bertanggung jawab atas terobosan terbesar Databricks dalam AI generatif. Produk Mosaic AI mencakup fitur ML dan AI di Databricks. Lihat Penelitian Mosaik.
Runtime pembelajaran mesin
Untuk membantu Anda mengembangkan model ML dan AI, Databricks menyediakan Databricks Runtime untuk Pembelajaran Mesin, yang mengotomatiskan pembuatan komputasi dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum. Ia juga memiliki dukungan GPU bawaan yang sudah dikonfigurasi termasuk driver dan pustaka pendukung. Telusuri informasi tentang rilis runtime terbaru dari versi dan kompatibilitas catatan rilis Databricks Runtime.
Percobaan
Kumpulan MLflow berjalan untuk melatih model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow.
Fitur
Fitur adalah komponen penting dari model ML. Penyimpanan fitur memungkinkan berbagi fitur dan penemuan di seluruh organisasi Anda dan juga memastikan bahwa kode komputasi fitur yang sama digunakan untuk pelatihan dan inferensi model. Lihat Rekayasa fitur dan penyajian.
Model GenAI
Databricks mendukung eksplorasi, pengembangan, dan penyebaran model AI generatif, termasuk:
- Taman bermain AI, lingkungan seperti obrolan di ruang kerja tempat Anda dapat menguji, meminta, dan membandingkan LLM. Lihat Mengobrol dengan LLM dan prototipe aplikasi GenAI menggunakan AI Playground.
- Sekumpulan model fondasi bawaan yang telah dikonfigurasi sebelumnya yang dapat Anda kueri:
- Lihat API Model Foundation bayar per token.
- Lihat [Disarankan] Menyebarkan model fondasi dari Unity Catalog untuk model fondasi yang dapat Anda layani dengan satu klik.
- LLM yang dihosting pihak ketiga, yang disebut model eksternal. Model-model ini dimaksudkan untuk digunakan apa adanya.
- Kemampuan untuk menyesuaikan model fondasi untuk mengoptimalkan performanya untuk aplikasi spesifik Anda (sering disebut penyempurnaan). Lihat Pelatihan Model AI Mosaik untuk model fondasi.
Registri model
Databricks menyediakan versi MLflow Model Registry yang dihosting di Unity Catalog. Model yang terdaftar di Unity Catalog mewarisi kontrol akses terpusat, silsilah data, dan penemuan dan akses lintas ruang kerja. Lihat Mengelola siklus hidup model di Unity Catalog.
Penyajian model
Mosaic AI Model Serving menyediakan antarmuka terpadu untuk menyebarkan, mengatur, dan mengkueri model AI. Setiap model yang Anda layani tersedia sebagai REST API yang dapat Anda integrasikan ke dalam aplikasi web atau klien Anda. Dengan Mosaic AI Model Serving, Anda dapat menyebarkan model, model fondasi, atau model pihak ketiga Anda sendiri yang dihosting di luar Databricks. Lihat Model yang melayani dengan Azure Databricks.
Pergudangan data
Pergudangan data mengacu pada pengumpulan dan penyimpanan data dari berbagai sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Databricks SQL adalah kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake Anda yang ada. Lihat Apa itu pergudangan data di Azure Databricks?.
Kueri
Kueri adalah pernyataan SQL valid yang memungkinkan Anda berinteraksi dengan data Anda. Anda dapat menulis kueri menggunakan editor SQL dalam platform, atau menyambungkan menggunakan konektor, driver, atau API SQL. Lihat Mengakses dan mengelola kueri tersimpan untuk mempelajari selengkapnya tentang cara bekerja dengan kueri.
Gudang SQL
Sumber daya komputasi tempat Anda menjalankan kueri SQL. Ada tiga jenis gudang SQL: Klasik, Pro, dan Tanpa Server. Azure Databricks merekomendasikan penggunaan gudang tanpa server jika tersedia. Lihat Jenis gudang SQL untuk membandingkan fitur yang tersedia untuk setiap jenis gudang.
Riwayat Kueri
Daftar kueri yang dijalankan dan karakteristik performanya. Riwayat kueri memungkinkan Anda memantau performa kueri, membantu Anda mengidentifikasi hambatan dan mengoptimalkan runtime kueri. Lihat Riwayat kueri.
Visualisasi
Presentasi grafis dari hasil menjalankan kueri. Lihat Visualisasi di buku catatan Databricks.
Dasbor
Presentasi visualisasi dan komentar data. Anda dapat menggunakan dasbor untuk mengirim laporan secara otomatis kepada siapa pun di akun Azure Databricks Anda. Gunakan Asisten Databricks untuk membantu Anda membangun visualisasi berdasarkan perintah langauge alami. Lihat Dasbor. Anda juga bisa membuat dasbor dari buku catatan. Lihat Dasbor di buku catatan.
Untuk dasbor warisan, lihat Dasbor warisan.
Penting
- Databricks merekomendasikan penggunaan dasbor AI/BI (sebelumnya dasbor Lakeview).
- Dasbor SQL Databricks asli sekarang disebut dasbor warisan. Mereka akan terus menerima perbaikan bug penting, tetapi tidak akan diperbarui dengan fitur baru. Dasbor warisan akan mencapai Akhir Masa Pakai sebelum akhir 2025. Databricks tidak merekomendasikan pembuatan dasbor warisan baru.
- Mengonversi dasbor warisan menggunakan alat migrasi atau REST API. Lihat Mengkloning dasbor warisan ke dasbor AI/BI untuk petunjuk tentang menggunakan alat migrasi bawaan. Lihat Menggunakan API Azure Databricks untuk mengelola dasbor untuk tutorial tentang membuat dan mengelola dasbor menggunakan REST API.