Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memberikan gambaran umum tingkat tinggi tentang arsitektur Azure Databricks, termasuk arsitektur perusahaannya, dalam kombinasi dengan Azure.
Objek Databricks
Akun Azure Databricks adalah konstruksi tingkat atas yang Anda gunakan untuk mengelola Azure Databricks di seluruh organisasi Anda. Di tingkat akun, Anda mengelola:
- Identitas dan akses: Pengguna, grup, perwakilan layanan, dan provisi pengguna.
Manajemen ruang kerja: Membuat, memperbarui, dan menghapus ruang kerja di beberapa wilayah.
Manajemen metastore Unity Catalog: Membuat dan melampirkan metastore ke ruang kerja.
Manajemen penggunaan: Penagihan, kepatuhan, dan kebijakan.
Akun dapat berisi beberapa ruang kerja dan metastore Katalog Unity.
Ruang kerja adalah lingkungan kolaborasi tempat pengguna menjalankan beban kerja komputasi seperti penyerapan, eksplorasi interaktif, pekerjaan terjadwal, dan pelatihan ML.
Metastore Unity Catalog adalah sistem tata kelola pusat untuk aset data seperti tabel dan model ML. Anda menata data dalam metastore di bawah namespace tiga tingkat:
<catalog-name>.<schema-name>.<object-name>
Metastore dilampirkan ke ruang kerja. Anda dapat menautkan satu metastore ke beberapa ruang kerja Azure Databricks di wilayah yang sama, memberi setiap ruang kerja tampilan data yang sama. Kontrol akses data dapat dikelola di semua ruang kerja yang ditautkan.
Arsitektur ruang kerja
Azure Databricks beroperasi di luar sarana kontrol dan sarana komputasi.
Sarana kontrol mencakup layanan backend yang dikelola Azure Databricks di akun Azure Databricks Anda. Sarana kontrol terletak di akun Azure Databricks, bukan akun cloud Anda. Aplikasi web berada di lapisan kendali.
bidang komputasi adalah tempat data Anda diproses. Ada dua jenis bidang komputasi tergantung pada komputasi yang Anda gunakan.
- Untuk komputasi tanpa server, sumber daya komputasi tanpa server berjalan di bidang komputasi tanpa server di akun Azure Databricks Anda.
- Untuk komputasi Azure Databricks klasik, sumber daya komputasi ada di langganan Azure Anda dalam apa yang disebut bidang komputasi klasik. Ini mengacu pada jaringan di langganan Azure Anda dan sumber dayanya.
Untuk mempelajari selengkapnya tentang komputasi klasik dan komputasi tanpa server, lihat Komputasi.
Arsitektur ruang kerja klasik
Nota
Ruang kerja klasik disebut sebagai ruang kerja Hibrid di portal Microsoft Azure.
Ruang kerja Azure Databricks klasik memiliki akun penyimpanan terkait yang dikenal sebagai akun penyimpanan ruang kerja. Akun penyimpanan ruang kerja ada di langganan Azure Anda.
Diagram berikut menjelaskan arsitektur Azure Databricks umum untuk ruang kerja klasik.
Arsitektur ruang kerja tanpa server
Penyimpanan ruang kerja di ruang kerja tanpa server disimpan di penyimpanan default ruang kerja. Anda juga dapat menyambungkan ke akun penyimpanan cloud untuk mengakses data Anda. Diagram berikut menjelaskan arsitektur umum untuk ruang kerja tanpa server.
Bidang komputasi tanpa server
Di bidang komputasi tanpa server, sumber daya komputasi Azure Databricks berjalan di lapisan komputasi dalam akun Azure Databricks Anda. Azure Databricks membuat bidang komputasi tanpa server di wilayah Azure yang sama dengan bidang komputasi klasik ruang kerja Anda. Anda memilih wilayah ini saat membuat ruang kerja.
Untuk melindungi data pelanggan dalam bidang komputasi tanpa server, komputasi tanpa server berjalan dalam batas jaringan untuk ruang kerja, dengan berbagai lapisan keamanan untuk mengisolasi ruang kerja pelanggan Azure Databricks yang berbeda dan kontrol jaringan tambahan antara kluster pelanggan yang sama.
Untuk mempelajari selengkapnya tentang jaringan di pesawat komputasi tanpa server, jaringan pesawat komputasi tanpa server.
Pesawat komputasi klasik
Di bidang komputasi klasik, sumber daya komputasi Azure Databricks berjalan di langganan Azure Anda. Sumber daya komputasi baru dibuat dalam jaringan virtual setiap ruang kerja di langganan Azure pelanggan.
Layanan komputasi klasik memiliki isolasi alami karena berjalan di langganan Azure pelanggan masing-masing. Untuk mempelajari selengkapnya tentang jaringan di bidang komputasi klasik, lihat Jaringan sarana komputasi klasik.
Untuk dukungan regional, lihat Wilayah Azure Databricks.
Penyimpanan ruang kerja
Penyimpanan ruang kerja ditangani secara berbeda tergantung pada jenis ruang kerja Anda. Untuk informasi selengkapnya tentang jenis ruang kerja, lihat Membuat ruang kerja.
Penyimpanan ruang kerja berisi dua kategori data: data sistem file ruang kerja dan data sistem ruang kerja. Keduanya terpisah dari objek data Anda sendiri (seperti tabel dan volume Katalog Unity).
Data sistem berkas ruang kerja
Sistem file ruang kerja menyimpan aset yang dibuat dan dikelola pengguna melalui antarmuka pengguna Azure Databricks. Ini termasuk:
- Notebooks
- Kueri dan dasbor SQL
- Pemberitahuan
- Repos (direktori yang dilampirkan ke repositori Git)
- Perpustakaan (
.whl,.jar) - File Python, file konfigurasi YAML, dan file kecil lainnya
Untuk informasi selengkapnya tentang file ruang kerja, lihat Apa itu file ruang kerja?. Untuk daftar lengkap aset ruang kerja, lihat Pengantar objek ruang kerja.
Data sistem ruang kerja
Setiap ruang kerja Azure Databricks juga menyimpan data sistem yang dihasilkan secara internal oleh fitur Azure Databricks. Data ini terlalu besar untuk disimpan dalam memori atau database, atau perlu bertahan di luar masa pakai satu sumber daya komputasi. Contoh data sistem ruang kerja meliputi:
- Hasil kueri SQL dan hasil kueri yang di-cache
- Hasil jalannya pekerjaan
- Revisi buku catatan
- Rencana kueri SQL yang digunakan untuk pengamatan
- Log klaster
Untuk detail tentang bagaimana penyimpanan ruang kerja dikonfigurasi untuk setiap jenis ruang kerja, lihat bagian di bawah ini.
Ruang kerja tanpa server
Ruang kerja tanpa server menggunakan penyimpanan default, yang merupakan lokasi penyimpanan yang dikelola sepenuhnya untuk data sistem ruang kerja internal dan aset data Unity Catalog. Ruang kerja tanpa server juga mendukung kemampuan untuk terhubung ke lokasi penyimpanan cloud Anda untuk katalog, tabel, dan aset data Anda sendiri. Lihat Penyimpanan default di Databricks.
Ruang kerja klasik
Penting
Jangan hapus atau ubah penyimpanan ruang kerja di akun cloud Anda. Ruang kerja Azure Databricks bergantung pada database sarana kontrol dan penyimpanan ruang kerjanya untuk operasi yang benar. Jika penyimpanan ruang kerja dihapus, ruang kerja tidak dapat dipulihkan.
Di ruang kerja klasik, data sistem ruang kerja berbeda dari Apa itu DBFS?. Meskipun keduanya mungkin berada di akun penyimpanan cloud yang sama di ruang kerja klasik, keduanya melayani tujuan yang berbeda. Akar DBFS adalah sistem file yang dapat diakses pengguna, sementara data sistem ruang kerja digunakan secara internal oleh fitur Azure Databricks.
Akun penyimpanan ruang kerja berisi:
- Data sistem ruang kerja: Data internal yang dihasilkan oleh fitur Azure Databricks
- Katalog ruang kerja Unity Catalog: Jika ruang kerja Anda diaktifkan untuk Unity Catalog secara otomatis, akun penyimpanan ruang kerja menyertakan katalog ruang kerja bawaan. Semua pengguna di ruang kerja Anda dapat membuat aset dalam skema default di katalog ini. Lihat Mulai menggunakan Unity Catalog.
- DBFS (warisan): Akar DBFS dan mount DBFS adalah warisan dan mungkin dinonaktifkan di ruang kerja Anda. DBFS (Databricks File System) adalah sistem file terdistribusi di lingkungan Azure Databricks yang dapat diakses di
dbfs:/bawah namespace. Root DBFS dan mount DBFS keduanya berada didbfs:/namespace. Menyimpan dan mengakses data menggunakan root DBFS atau mount DBFS adalah pola yang usang dan tidak direkomendasikan oleh Databricks. Untuk informasi selengkapnya, lihat Apa itu DBFS?.
Untuk membatasi akses ke akun penyimpanan ruang kerja Anda hanya dari sumber daya dan jaringan resmi, lihat Mengaktifkan dukungan firewall untuk akun penyimpanan ruang kerja Anda.