Bagikan melalui


Panduan Penggunaan Data

Platform Data Intelligence Databricks memungkinkan praktisi data di seluruh organisasi Anda untuk berkolaborasi dan memproduksi solusi data menggunakan aset dan alat data bersama yang diatur dengan aman.

Halaman ini membantu Anda mengidentifikasi titik awal yang benar untuk kasus penggunaan Anda.

Banyak tugas di Azure Databricks memerlukan izin yang ditingkatkan. Banyak organisasi membatasi izin yang ditingkatkan ini ke sejumlah kecil pengguna atau tim. Halaman ini membedakan tindakan yang dapat diselesaikan oleh sebagian besar pengguna ruang kerja dari tindakan yang dibatasi untuk pengguna istimewa.

Administrator ruang kerja dapat membantu Anda menentukan apakah Anda harus meminta akses ke aset atau meminta izin yang ditinggikan.

Menemukan dan mengakses data

Bagian ini memberikan gambaran singkat tentang tugas untuk membantu Anda menemukan aset data yang tersedia untuk Anda. Sebagian besar tugas ini mengasumsikan bahwa admin telah mengonfigurasi izin pada aset data. Lihat Pengaturan akses data.

Fitur Resources
Penemuan data Untuk gambaran umum tugas penemuan data yang lebih rinci, lihat Menemukan data.
Catalogs Katalog adalah objek tingkat atas dalam model tata kelola data Katalog Unity. Gunakan Catalog Explorer untuk menemukan tabel, tampilan, dan aset data lainnya. Lihatlah Jelajahi objek database.
Penyimpanan tersambung Jika Anda memiliki akses ke sumber daya komputasi, Anda dapat menggunakan perintah bawaan untuk menjelajahi file di penyimpanan yang terhubung. Lihat Menjelajahi penyimpanan dan menemukan file data.
Mengunggah file lokal Secara default, pengguna memiliki izin untuk mengunggah file data kecil dari komputer lokal Anda seperti CSV. Lihat Membuat atau mengubah tabel dengan mengunggah berkas.

Bekerja dengan data

Bagian ini menyediakan gambaran umum tugas data umum dan alat yang digunakan untuk melakukan tugas tersebut.

Untuk semua tugas yang dijelaskan, pengguna harus memiliki izin yang tepat ke alat, sumber daya komputasi, data, dan artefak ruang kerja lainnya. Lihat Mengonfigurasi akses data dan Mengonfigurasi ruang kerja dan infrastruktur.

Fitur Resources
Objek database Selain tabel dan tampilan, Azure Databricks menggunakan objek database lain yang dapat diamankan seperti volume untuk mengatur data dengan aman. Lihat objek database di Azure Databricks.
Izin data Katalog Unity mengatur semua operasi baca dan tulis di ruang kerja yang diaktifkan. Anda harus memiliki izin yang memadai untuk menyelesaikan operasi ini. Lihat Objek yang Dapat Diamankan di Unity Catalog.
ETL Beban kerja ekstraksi, transformasi, dan pemuatan (ETL) adalah salah satu kegunaan paling umum untuk Apache Spark dan Azure Databricks, dan sebagian besar platform memiliki fitur yang dibangun dan dioptimalkan untuk ETL. Lihat Tutorial: Membangun alur ETL dengan Alur Deklaratif Lakeflow Spark.
Queries
  • Semua transformasi, laporan, analisis, atau eksekusi pelatihan model dimulai dengan kueri terhadap tabel, tampilan, atau file data. Anda dapat mengkueri data menggunakan pemrosesan batch atau streaming. Lihat Kueri data.
  • Lakukan kueri ad hoc menggunakan editor kueri SQL atau buku catatan untuk mengkueri tabel, tampilan, dan aset data lainnya. Lihat Menulis kueri dan menjelajahi data di editor SQL baru dan buku catatan Databricks.
Dasbor dan Wawasan
  • Dasbor AI/BI memungkinkan Anda mengekstrak dan memvisualisasikan wawasan dengan mudah di UI. Lihat Dashboard.
  • Ruang Genie menggunakan perintah teks untuk menjawab pertanyaan dan memberikan wawasan berdasarkan data Anda. Lihat Apa itu ruang AI/BI Genie.
Ingest
  • Lakeflow Connect menyerap data dari sistem eksternal populer. Lihat Penghubung Terkelola di Lakeflow Connect.
  • Auto Loader dapat digunakan dengan Alur Deklaratif Lakeflow Spark atau pekerjaan Streaming Terstruktur untuk menyerap data secara bertahap dari penyimpanan objek cloud. Silakan lihat Apa itu Auto Loader?.
  • Anda dapat menggunakan Alur Deklaratif Lakeflow Spark atau Streaming Terstruktur untuk menyerap data dari antrean pesan termasuk Kafka. Lihat Pencarian data streaming.
Transformations Azure Databricks menggunakan sintaks dan alat yang umum digunakan untuk transformasi yang berkisar dalam kompleksitas dari perintah SQL CTAS hingga aplikasi streaming hampir real-time.
AI dan pembelajaran mesin Platform Databricks Data Intelligence menyediakan serangkaian alat untuk ilmu data, pembelajaran mesin, dan aplikasi AI. Lihat AI dan pembelajaran mesin di Databricks.

Mengonfigurasi akses data

Sebagian besar ruang kerja Azure Databricks mengandalkan admin ruang kerja atau pengguna daya lainnya untuk mengonfigurasi koneksi ke sumber data eksternal dan menerapkan hak istimewa ke aset data berdasarkan keanggotaan tim, wilayah, atau peran. Bagian ini memberikan gambaran umum tentang tugas yang umum untuk mengonfigurasi dan mengontrol akses data yang memerlukan izin tingkat tinggi.

Note

Sebelum meminta izin yang ditingkatkan untuk mengonfigurasi koneksi baru ke sumber data, konfirmasikan apakah Anda hanya kehilangan hak istimewa pada koneksi, katalog, atau tabel yang ada. Jika sumber data tidak tersedia, konsultasikan dengan organisasi Anda untuk kebijakan untuk menambahkan data baru ke ruang kerja Anda.

Fitur Resources
Katalog Unity
  • Unity Catalog mendukung fitur tata kelola data yang disertakan dalam Platform Kecerdasan Data Databricks. Lihat Apa itu Katalog Unity?.
  • Admin akun Databricks, admin ruang kerja, dan admin metastore memiliki privilege default untuk mengatur hak istimewa data Katalog Unity bagi pengguna. Lihat Mengelola hak akses di Unity Catalog.
Koneksi dan akses
Berbagi katalog dan dasbor
  • Admin dapat membuat katalog baru. Katalog menyediakan abstraksi tingkat tinggi untuk isolasi data dan dapat terkait dengan ruang kerja individual atau dibagikan di semua ruang kerja di akun. Lihat "Buat katalog".
  • Dasbor AI/BI mendorong pemilik untuk menyematkan informasi kredensial mereka saat menerbitkan, memastikan bahwa penonton dapat memperoleh wawasan dari hasil yang dibagikan. Untuk detail, lihat Bagikan dasbor.

Mengonfigurasi ruang kerja dan infrastruktur

Bagian ini menyediakan gambaran umum tugas umum yang terkait dengan pengelolaan aset dan infrastruktur ruang kerja. Didefinisikan secara luas, aset ruang kerja mencakup yang berikut ini:

  • Sumber daya komputasi: Sumber daya komputasi mencakup kluster interaktif semua tujuan, gudang SQL, kluster pekerjaan, dan komputasi alur. Pengguna atau beban kerja harus memiliki izin untuk menyambungkan ke sumber daya komputasi yang sedang berjalan agar dapat memproses logika yang ditentukan.

    Note

    Pengguna yang tidak memiliki akses untuk terhubung ke sumber daya komputasi apa pun memiliki fungsionalitas yang sangat terbatas di Azure Databricks.

  • Alat Platform: Platform Databricks Data Intelligence menyediakan serangkaian alat yang disesuaikan dengan kasus dan persona penggunaan yang berbeda, seperti notebook, Databricks SQL, dan Mosaic AI. Admin dapat menyesuaikan pengaturan yang menyertakan perilaku default, fitur opsional, dan akses pengguna untuk banyak alat ini.

  • Artefak: Artefak mencakup notebook, kueri, dasbor, file, pustaka, alur, dan tugas. Artefak berisi kode dan konfigurasi yang ditulis pengguna untuk melakukan tindakan yang diinginkan pada data mereka.

Important

Pengguna yang membuat aset ruang kerja diberi peran pemilik secara default. Untuk sebagian besar aset, pemilik dapat memberikan izin kepada pengguna atau grup lain di ruang kerja.

Untuk memastikan bahwa data dan kode aman, Databricks merekomendasikan untuk mengonfigurasi peran pemilik untuk semua artefak dan sumber daya komputasi yang disebarkan ke ruang kerja produksi.

Fitur Resources
Pemberian izin ruang kerja Hak ruang kerja mencakup akses ruang kerja dasar, akses ke Databricks SQL, dan pembuatan kluster yang tidak dibatasi. Lihat Mengelola hak akses.
Kebijakan akses sumber daya komputasi &
  • Sebagian besar biaya di Azure Databricks adalah untuk sumber daya komputasi. Mengontrol pengguna mana yang memiliki kemampuan untuk mengonfigurasi, menyebarkan, memulai, dan menggunakan berbagai sumber daya sangat penting untuk mengontrol biaya. Lihat Gambaran umum komputasi klasik.
  • Kebijakan komputasi berfungsi bersama dengan pemberian izin komputasi ruang kerja untuk memastikan bahwa pengguna yang berhak hanya menyebarkan sumber daya komputasi mengikuti aturan konfigurasi yang ditentukan. Lihat Membuat dan mengelola kebijakan komputasi.
  • Admin dapat mengonfigurasi perilaku default, kebijakan akses data, dan akses pengguna ke gudang SQL. Lihat pengaturan admin gudang SQL.
Alat platform Gunakan konsol admin untuk mengonfigurasi perilaku mulai dari menyesuaikan tampilan ruang kerja hingga mengaktifkan atau menonaktifkan produk dan fitur. Lihat mengelola ruang kerja Anda.
ACL ruang kerja Daftar kontrol akses ruang kerja (ACL) mengatur bagaimana pengguna dan grup dapat berinteraksi dengan aset ruang kerja termasuk sumber daya komputasi, artefak kode, dan pekerjaan. Lihat daftar kontrol akses .

Produksi beban kerja

Semua produk Azure Databricks dibangun untuk mempercepat jalur dari pengembangan ke produksi, dan untuk skala dan stabilitas. Bagian ini menyediakan pengenalan singkat tentang rangkaian alat yang direkomendasikan untuk menjalankan beban kerja dalam produksi.

Fitur Resources
Alur ETL Alur Deklaratif Lakeflow Spark menyediakan sintaks deklaratif untuk membangun dan memproduksi alur ETL. Lihat Alur Deklaratif Lakeflow Spark.
Orchestration Pekerjaan memungkinkan Anda menentukan alur kerja yang kompleks dengan dependensi, pemicu, dan jadwal. Lihat Pekerjaan Lakeflow.
CI/CD Bundel Aset Databricks memudahkan pengelolaan dan penyebaran data, aset, dan artefak di seluruh ruang kerja. Lihat Apa itu Bundel Aset Databricks?.