Bagikan melalui


Konsep Azure Databricks

Artikel ini memperkenalkan konsep dasar yang perlu Anda pahami untuk menggunakan Azure Databricks secara efektif.

Akun dan ruang kerja

Di Azure Databricks, ruang kerja adalah penyebaran Azure Databricks di cloud yang berfungsi sebagai lingkungan bagi tim Anda untuk mengakses aset Databricks. Organisasi Anda dapat memilih untuk memiliki beberapa ruang kerja atau hanya satu, tergantung pada kebutuhannya.

Akun Azure Databricks mewakili satu entitas yang dapat menyertakan beberapa ruang kerja. Akun yang diaktifkan untuk Unity Catalog dapat digunakan untuk mengelola pengguna dan akses mereka ke data secara terpusat di semua ruang kerja di akun.

Penagihan: Unit Databricks (DBA)

Tagihan Azure Databricks berdasarkan unit Databricks (DBA), yang merupakan unit kemampuan pemrosesan per jam berdasarkan jenis instans VM.

Lihat halaman harga Azure Databricks.

Autentikasi dan otorisasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui saat mengelola identitas Azure Databricks dan aksesnya ke aset Azure Databricks.

Pengguna

Individu unik yang memiliki akses ke sistem. Identitas pengguna diwakili oleh alamat email. Lihat Mengelola pengguna.

Perwakilan layanan

Identitas layanan untuk digunakan dengan pekerjaan, alat otomatis, dan sistem seperti skrip, aplikasi, dan platform CI/CD. Perwakilan layanan diwakili oleh ID aplikasi. Lihat Mengelola prinsipal layanan.

Grupkan

Kumpulan identitas. Grup menyederhanakan manajemen identitas, membuatnya lebih mudah untuk menetapkan akses ke ruang kerja, data, dan objek aman lainnya. Semua identitas Databricks dapat ditetapkan sebagai anggota grup. Lihat Kelola grup.

Daftar kontrol akses (ACL)

Daftar izin yang dilampirkan ke ruang kerja, kluster, pekerjaan, tabel, atau eksperimen. ACL menentukan pengguna atau proses sistem mana yang diberikan akses ke objek, serta operasi apa yang diizinkan pada aset. Setiap entri dalam ACL khas menentukan subjek dan operasi. Lihat Daftar kontrol akses.

Token akses pribadi (PAT)

Token akses pribadi adalah string yang digunakan untuk mengautentikasi panggilan REST API, Koneksi mitra teknologi, dan alat lainnya. Lihat Autentikasi token akses pribadi Azure Databricks.

Token ID Microsoft Entra juga dapat digunakan untuk mengautentikasi ke REST API.

Antarmuka Azure Databricks

Bagian ini menjelaskan antarmuka untuk mengakses aset Anda di Azure Databricks.

UI

Antarmuka pengguna Azure Databricks adalah antarmuka grafis untuk berinteraksi dengan fitur, seperti folder ruang kerja dan objek yang terkandung, objek data, dan sumber daya komputasi.

REST API

Databricks REST API menyediakan titik akhir untuk memodifikasi atau meminta informasi tentang akun Azure Databricks dan objek ruang kerja. Lihat referensi akun dan referensi ruang kerja.

SQL REST API

SQL REST API memungkinkan Anda mengotomatiskan tugas pada objek SQL. Lihat SQL API.

CLI

Databricks CLI dihosting di GitHub. CLI dibangun di atas Databricks REST API.

Manajemen data

Bagian ini menjelaskan objek logis yang menyimpan data yang Anda umpankan ke dalam algoritma pembelajaran mesin dan tempat Anda melakukan analitik. Selain itu, ini menjelaskan UI dalam platform untuk menjelajahi dan mengelola objek data.

Katalog Unity

Unity Catalog adalah solusi tata kelola terpadu untuk aset data dan AI di Azure Databricks yang menyediakan kontrol akses terpusat, audit, silsilah data, dan kemampuan penemuan data di seluruh ruang kerja Databricks. Lihat Apakah itu Katalog Unity?.

akar DBFS

Penting

Menyimpan dan mengakses data menggunakan pemasangan Akar DBFS atau DBFS adalah pola yang tidak digunakan lagi dan tidak direkomendasikan oleh Databricks. Sebagai gantinya, Databricks merekomendasikan penggunaan Unity Catalog untuk mengelola akses ke semua data. Lihat Apakah itu Katalog Unity?.

Akar DBFS adalah lokasi penyimpanan yang tersedia untuk semua pengguna secara default. Lihat Apa itu DBFS?.

Penjelajah Katalog

Catalog Explorer memungkinkan Anda menjelajahi dan mengelola data dan aset AI, termasuk skema (database), tabel, model, volume (data non-tabular), fungsi, dan model ML terdaftar. Anda dapat menggunakannya untuk menemukan objek data dan pemilik, memahami hubungan data di seluruh tabel, dan mengelola izin dan berbagi. Lihat Apa itu Catalog Explorer?.

Database

Kumpulan objek data, seperti tabel atau tampilan dan fungsi, yang diatur sehingga dapat dengan mudah diakses, dikelola, dan diperbarui. Lihat Apa itu skema di Azure Databricks?

Tabel

Representasi dari data terstruktur. Anda mengkueri tabel dengan Api Apache Spark dan SQL Apache Spark. Lihat Apa itu tabel dan tampilan?.

Tabel Delta

Secara default, semua tabel yang dibuat di Azure Databricks adalah tabel Delta. Tabel Delta didasarkan pada proyek Delta Lake sumber terbuka, kerangka kerja untuk penyimpanan tabel ACID berkinerja tinggi melalui penyimpanan objek cloud. Tabel Delta menyimpan data sebagai direktori file pada penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema.

Cari tahu lebih lanjut tentang teknologi bermerk sebagai Delta.

Metastore

Komponen yang menyimpan semua informasi struktur berbagai tabel dan partisi di gudang data termasuk informasi jenis kolom dan kolom, serializer dan deserializer yang diperlukan untuk membaca dan menulis data, dan file yang sesuai tempat data disimpan. Lihat Metastores

Setiap penyebaran Azure Databricks memiliki metastore Apache Hive pusat yang dapat diakses oleh semua kluster untuk mempertahankan metadata tabel. Anda juga memiliki opsi untuk menggunakan metastore Apache Hive eksternal yang ada.

Manajemen komputasi

Bagian ini menjelaskan konsep yang perlu Anda ketahui untuk menjalankan komputasi di Azure Databricks.

Kluster

Satu set sumber daya komputasi dan konfigurasi tempat Anda menjalankan buku catatan dan pekerjaan. Ada dua jenis kluster: serba guna dan pekerjaan. Lihat Komputasi.

  • Anda dapat membuat kluster serba guna menggunakan UI, CLI, atau REST API. Anda dapat menghentikan dan memulai ulang kluster serba guna secara manual. Beberapa pengguna dapat berbagi kluster tersebut untuk melakukan analisis interaktif kolaboratif.
  • Penjadwal pekerjaan Azure Databricks membuat kluster pekerjaan saat Anda menjalankan pekerjaan pada kluster pekerjaan baru dan mengakhiri kluster saat pekerjaan selesai. Anda tidak dapat memulai ulang kluster pekerjaan.

Kumpulan

Satu set instans diam dan siap pakai yang mengurangi waktu mulai kluster dan penskalaan otomatis. Ketika dilampirkan ke kumpulan, kluster mengalokasikan {i>node driver Referensi konfigurasi kumpulan.

Jika kumpulan tidak memiliki sumber daya diam yang cukup untuk mengakomodasi permintaan kluster, kumpulan akan bertambah dengan mengalokasikan instans baru dari penyedia instans. Ketika kluster terlampir dihentikan, instans yang digunakan dikembalikan ke kumpulan dan dapat digunakan kembali oleh kluster yang berbeda.

Runtime bahasa umum Databricks

Kumpulan komponen inti yang berjalan pada kluster yang dikelola oleh Azure Databricks. Lihat Komputasi. Azure Databricks memiliki runtime berikut:

  • Runtime bahasa umum Databricks mencakup Apache Spark tetapi juga menambahkan sejumlah komponen dan pembaruan yang secara substansial meningkatkan kegunaan, kinerja, dan keamanan analitik data besar.
  • Databricks Runtime for Pembelajaran Mesin dibangun di Databricks Runtime dan menyediakan infrastruktur pembelajaran mesin bawaan yang terintegrasi dengan semua kemampuan ruang kerja Azure Databricks. Berisi beberapa pustaka populer, termasuk TensorFlow, PyTorch, Keras, dan XGBoost.

Alur kerja

UI ruang kerja Alur Kerja menyediakan entri ke UI Alur Pekerjaan dan DLT, yang merupakan alat yang memungkinkan Anda mengatur dan menjadwalkan alur kerja.

Pekerjaan

Mekanisme non-interaktif untuk mengatur dan menjadwalkan buku catatan, pustaka, dan tugas lainnya. Lihat Menjadwalkan dan mengatur alur kerja

Pipelines

Alur Tabel Langsung Delta menyediakan kerangka kerja deklaratif untuk membangun alur pemrosesan data yang andal, dapat dipertahankan, dan dapat diuji. Lihat Apa itu Tabel Langsung Delta?.

Beban kerja

Beban kerja adalah jumlah kemampuan pemrosesan yang diperlukan untuk melakukan tugas atau grup tugas. Azure Databricks mengidentifikasi dua jenis beban kerja: rekayasa data (pekerjaan) dan analitik data (semua tujuan).

  • Rekayasa data Beban kerja (otomatis) berjalan pada kluster pekerjaan yang dibuat oleh penjadwal kerja Azure Databricks untuk setiap beban kerja.
  • Analisis data Beban kerja (interaktif) berjalan pada kluster serba guna. Beban kerja interaktif biasanya menjalankan perintah dalam buku catatan Azure Databricks. Namun, menjalankan pekerjaan pada kluster serba guna yang ada juga diperlakukan sebagai beban kerja interaktif.

Konteks eksekusi

Status untuk lingkungan read–eval–print loop (REPL) untuk setiap bahasa pemrograman yang didukung. Bahasa yang didukung adalah Python, R, Scala, dan SQL.

Rekayasa Data

Alat rekayasa data membantu kolaborasi antara ilmuwan data, insinyur data, analis data, dan insinyur pembelajaran mesin.

Ruang kerja

Sebuah Ruang kerja adalah lingkungan untuk mengakses semua elemen Azure Databricks Anda. Ruang kerja mengatur objek (buku catatan, pustaka, dasbor, dan eksperimen) ke dalam folder dan menyediakan akses ke objek data dan sumber daya komputasi.

Notebook

Antarmuka berbasis web untuk membuat ilmu data dan alur kerja pembelajaran mesin yang dapat berisi perintah, visualisasi, dan teks naratif yang dapat dijalankan. Lihat Pengantar notebook Databricks.

Pustaka

Paket kode yang tersedia untuk buku catatan atau pekerjaan yang berjalan di kluster Anda. Runtime Databricks mencakup banyak pustaka, dan Anda juga dapat mengunggahnya sendiri. Lihat Pustaka.

Folder Git (sebelumnya Repositori)

Folder yang isinya versi bersama dengan menyinkronkannya ke repositori Git jarak jauh. Folder Databricks Git terintegrasi dengan Git untuk menyediakan kontrol sumber dan versi untuk proyek Anda.

AI dan pembelajaran mesin

Databricks menyediakan lingkungan end-to-end terintegrasi dengan layanan terkelola untuk mengembangkan dan menyebarkan AI dan aplikasi pembelajaran mesin.

Mosaik AI

Nama merek untuk produk dan layanan dari Databricks Mosaic AI Research, tim peneliti dan insinyur yang bertanggung jawab atas terobosan terbesar Databricks dalam AI generatif. Produk Mosaic AI mencakup fitur ML dan AI di Databricks. Lihat Penelitian Mosaik.

Runtime pembelajaran mesin

Untuk membantu Anda mengembangkan model ML dan AI, Databricks menyediakan Databricks Runtime untuk Pembelajaran Mesin, yang mengotomatiskan pembuatan komputasi dengan pembelajaran mesin bawaan dan infrastruktur pembelajaran mendalam termasuk pustaka ML dan DL yang paling umum. Ia juga memiliki dukungan GPU bawaan yang sudah dikonfigurasi termasuk driver dan pustaka pendukung. Telusuri informasi tentang rilis runtime terbaru dari versi dan kompatibilitas catatan rilis Databricks Runtime.

Percobaan

Kumpulan MLflow berjalan untuk melatih model pembelajaran mesin. Lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow.

Fitur

Fitur adalah komponen penting dari model ML. Penyimpanan fitur memungkinkan berbagi fitur dan penemuan di seluruh organisasi Anda dan juga memastikan bahwa kode komputasi fitur yang sama digunakan untuk pelatihan dan inferensi model. Lihat Rekayasa fitur dan penyajian.

Model GenAI

Databricks mendukung eksplorasi, pengembangan, dan penyebaran model AI generatif, termasuk:

Registri model

Databricks menyediakan versi MLflow Model Registry yang dihosting di Unity Catalog. Model yang terdaftar di Unity Catalog mewarisi kontrol akses terpusat, silsilah data, dan penemuan dan akses lintas ruang kerja. Lihat Mengelola siklus hidup model di Unity Catalog.

Penyajian model

Mosaic AI Model Serving menyediakan antarmuka terpadu untuk menyebarkan, mengatur, dan mengkueri model AI. Setiap model yang Anda layani tersedia sebagai REST API yang dapat Anda integrasikan ke dalam aplikasi web atau klien Anda. Dengan Mosaic AI Model Serving, Anda dapat menyebarkan model, model fondasi, atau model pihak ketiga Anda sendiri yang dihosting di luar Databricks. Lihat Model yang melayani dengan Azure Databricks.

Pergudangan data

Pergudangan data mengacu pada pengumpulan dan penyimpanan data dari berbagai sumber sehingga dapat dengan cepat diakses untuk wawasan dan pelaporan bisnis. Databricks SQL adalah kumpulan layanan yang membawa kemampuan dan performa pergudangan data ke data lake Anda yang ada. Lihat Apa itu pergudangan data di Azure Databricks?.

Kueri

Kueri adalah pernyataan SQL valid yang memungkinkan Anda berinteraksi dengan data Anda. Anda dapat menulis kueri menggunakan editor SQL dalam platform, atau menyambungkan menggunakan konektor, driver, atau API SQL. Lihat Mengakses dan mengelola kueri tersimpan untuk mempelajari selengkapnya tentang cara bekerja dengan kueri.

Gudang SQL

Sumber daya komputasi tempat Anda menjalankan kueri SQL. Ada tiga jenis gudang SQL: Klasik, Pro, dan Tanpa Server. Azure Databricks merekomendasikan penggunaan gudang tanpa server jika tersedia. Lihat Jenis gudang SQL untuk membandingkan fitur yang tersedia untuk setiap jenis gudang.

Riwayat Kueri

Daftar kueri yang dijalankan dan karakteristik performanya. Riwayat kueri memungkinkan Anda memantau performa kueri, membantu Anda mengidentifikasi hambatan dan mengoptimalkan runtime kueri. Lihat Riwayat kueri.

Visualisasi

Presentasi grafis dari hasil menjalankan kueri. Lihat Visualisasi di buku catatan Databricks.

Dasbor

Presentasi visualisasi dan komentar data. Anda dapat menggunakan dasbor untuk mengirim laporan secara otomatis kepada siapa pun di akun Azure Databricks Anda. Gunakan Asisten Databricks untuk membantu Anda membangun visualisasi berdasarkan perintah langauge alami. Lihat Dasbor. Anda juga bisa membuat dasbor dari buku catatan. Lihat Dasbor di buku catatan.

Untuk dasbor warisan, lihat Dasbor warisan.

Penting

  • Databricks merekomendasikan penggunaan dasbor AI/BI (sebelumnya dasbor Lakeview).
  • Dasbor SQL Databricks asli sekarang disebut dasbor warisan. Mereka akan terus menerima perbaikan bug penting, tetapi tidak akan diperbarui dengan fitur baru. Dasbor warisan akan mencapai Akhir Masa Pakai sebelum akhir 2025. Databricks tidak merekomendasikan pembuatan dasbor warisan baru.