Bagikan melalui


Pengantar objek ruang kerja

Artikel ini menyediakan pengenalan tingkat tinggi untuk objek ruang kerja Azure Databricks. Anda dapat membuat, menampilkan, dan mengatur objek ruang kerja di browser ruang kerja di seluruh persona.

Catatan tentang aset ruang kerja namimg

Nama lengkap aset ruang kerja terdiri dari nama dasar dan ekstensi filenya. Misalnya, ekstensi file buku catatan dapat berupa .py, , .sql, .scala.r, dan .ipynb tergantung pada bahasa dan format buku catatan.

Saat Anda membuat aset buku catatan, nama dasar dan nama lengkapnya (nama dasar yang digabungkan dengan ekstensi file) harus unik dalam folder ruang kerja apa pun. Saat Anda memberi nama aset, Databricks memeriksa untuk melihat apakah memenuhi kriteria ini dengan menambahkan ekstensi file ke dalamnya, dan jika nama lengkap cocok dengan file yang ada di folder, nama tidak diizinkan dan Anda harus memilih nama baru untuk buku catatan. Misalnya, jika Anda mencoba membuat buku catatan Python (dalam format sumber Python) bernama test di folder yang sama dengan file Python bernama test.py, itu tidak akan diizinkan.

Kluster

Kluster Azure Databricks Ilmu Data & Engineering dan Databricks Mosaic AI menyediakan platform terpadu untuk berbagai kasus penggunaan seperti menjalankan alur ETL produksi, analitik streaming, analitik ad-hoc, dan pembelajaran mesin. Kluster adalah jenis sumber daya komputasi Azure Databricks. Jenis sumber daya komputasi lainnya termasuk gudang SQL Azure Databricks.

Untuk informasi terperinci tentang mengelola dan menggunakan kluster, lihat Komputasi.

Buku catatan

Buku catatan adalah antarmuka berbasis web untuk dokumen yang berisi serangkaian sel yang bisa dijalankan (perintah) yang beroperasi pada file dan tabel, visualisasi, dan teks naratif. Perintah dapat dijalankan secara berurutan, mengacu pada output dari satu atau lebih perintah yang dijalankan sebelumnya.

Buku catatan adalah salah satu mekanisme untuk menjalankan kode di Azure Databricks. Mekanisme lainnya adalah pekerjaan.

Untuk informasi terperinci tentang mengelola dan menggunakan notebook, lihat Pengenalan notebook Databricks.

Pekerjaan

Pekerjaan adalah salah satu mekanisme untuk menjalankan kode di Azure Databricks. Mekanisme lainnya adalah buku catatan.

Untuk informasi terperinci tentang mengelola dan menggunakan pekerjaan, lihat Menjadwalkan dan mengatur alur kerja.

Pustaka

Pustaka membuat kode pihak ketiga atau buatan lokal tersedia untuk buku catatan dan pekerjaan yang berjalan di kluster Anda.

Untuk informasi terperinci tentang mengelola dan menggunakan pustaka, lihat Pustaka.

Data

Anda dapat mengimpor data ke dalam sistem file terdistribusi yang dipasang ke ruang kerja Azure Databricks dan bekerja dengannya di buku catatan dan kluster Azure Databricks. Anda juga dapat menggunakan berbagai sumber data Apache Spark guna mengakses data.

Untuk informasi terperinci tentang memuat data, lihat Menyerap data ke dalam databricks lakehouse.

File

Penting

Fitur ini ada di Pratinjau Publik.

Di Databricks Runtime 11.3 LTS ke atas, Anda dapat membuat dan menggunakan file sewenang-wenang di ruang kerja Databricks. File dapat berupa jenis file apa pun. Contoh umumnya termasuk:

  • .py file yang digunakan dalam modul kustom.
  • .md file, seperti README.md.
  • .csv atau file data kecil lainnya.
  • .txt File.
  • File log.

Untuk informasi terperinci tentang menggunakan file, lihat Bekerja dengan file di Azure Databricks. Untuk informasi tentang cara menggunakan file untuk memodulasi kode saat Anda mengembangkan dengan buku catatan Databricks, lihat Berbagi kode antara buku catatan Databricks

Folder Git

Folder Git adalah folder Azure Databricks yang kontennya di-versi bersama dengan menyinkronkannya ke repositori Git jarak jauh. Dengan menggunakan folder Databricks Git, Anda dapat mengembangkan notebook di Azure Databricks dan menggunakan repositori Git jarak jauh untuk kolaborasi dan kontrol versi.

Untuk informasi terperinci tentang menggunakan repositori, lihat Integrasi Git untuk folder Databricks Git.

Model

Model mengacu pada model yang terdaftar di Registri Model MLflow. Registri Model adalah toko model terpusat yang memungkinkan Anda mengelola siklus hidup penuh model MLflow. Ini memberikan garis keturunan model kronologis, versi model, transisi tahap, dan anotasi dan deskripsi versi model dan model.

Untuk informasi terperinci tentang mengelola dan menggunakan model, lihat Mengelola siklus hidup model di Unity Catalog.

Eksperimen

Eksperimen MLflow adalah unit utama organisasi dan kontrol akses untuk eksekusi pelatihan model pembelajaran mesin MLflow; semua eksekusi MLflow termasuk kedalam eksperimen. Eksperimen memungkinkan Anda memvisualisasikan, mencari, dan membandingkan eksekusi, serta mengunduh artefak atau metadata eksekusi untuk analisis di alat lain.

Untuk informasi terperinci tentang mengelola dan menggunakan eksperimen, lihat Mengatur eksekusi pelatihan dengan eksperimen MLflow.

Kueri

Kueri adalah pernyataan SQL yang memungkinkan Anda berinteraksi dengan data Anda. Untuk informasi selengkapnya, lihat Mengakses dan mengelola kueri yang disimpan.

Dashboard

Dasbor adalah presentasi visualisasi kueri dan komentar. Lihat Dasbor atau Dasbor warisan.

Peringatan

Peringatan adalah pemberitahuan bahwa bidang yang ditampilkan oleh kueri telah mencapai ambang. Untuk informasi selengkapnya, lihat Apa itu pemberitahuan Databricks SQL?.

Referensi ke objek ruang kerja

Secara historis, pengguna diharuskan untuk menyertakan /Workspace awalan jalur untuk beberapa API Databricks (%sh) tetapi tidak untuk yang lain (%run, input REST API).

Pengguna dapat menggunakan jalur ruang kerja dengan awalan di /Workspace mana saja. Referensi lama ke jalur tanpa awalan /Workspace dialihkan dan terus berfungsi. Kami menyarankan agar semua jalur ruang kerja membawa /Workspace awalan untuk membedakannya dari jalur Volume dan DBFS.

Prasyarat untuk perilaku awalan jalur yang konsisten /Workspace adalah ini: Tidak boleh /Workspace ada folder di tingkat akar ruang kerja. Jika Anda memiliki folder di tingkat akar dan ingin mengaktifkan peningkatan UX ini, hapus atau ganti nama folder yang /Workspace /Workspace Anda buat dan hubungi tim akun Azure Databricks Anda.

Berbagi file, folder, atau URL buku catatan

Di ruang kerja Azure Databricks Anda, URL ke file ruang kerja, notebook, dan folder dalam format:

URL file ruang kerja

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

URL Notebook

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URL Folder (ruang kerja dan Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Tautan ini dapat memutus jika ada folder, file, atau buku catatan di jalur saat ini diperbarui dengan perintah penarikan Git, atau dihapus dan dibuat ulang dengan nama yang sama. Namun, Anda dapat membuat tautan berdasarkan jalur ruang kerja untuk dibagikan dengan pengguna Databricks lain dengan tingkat akses yang sesuai dengan mengubahnya ke tautan dalam format ini:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Tautan ke folder, buku catatan, dan file dapat dibagikan dengan mengganti semua yang ada di URL setelah ?o=<16-digit-workspace-ID> dengan jalur ke file, folder, atau buku catatan dari akar ruang kerja. Jika Anda berbagi URL ke folder, hapus /browse/folders/<16-digit-ID> dari URL asli juga.

Untuk mendapatkan jalur file, buka menu konteks dengan mengklik kanan folder, buku catatan, atau file di ruang kerja yang ingin Anda bagikan dan pilih Salin URL/jalur>Jalur lengkap. #workspace Tambahkan sebelumnya ke jalur file yang baru saja Anda salin, dan tambahkan string yang ?o=<16-digit-workspace-ID> dihasilkan setelah cocok dengan format URL di atas.

Memilih jalur SALIN URL diikuti dengan Jalur lengkap dari menu konteks folder ruang kerja.

Contoh rumusan URL #1: URL Folder

Untuk berbagi URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222folder ruang kerja , hapus browse/folders/1111111111111111 substring dari URL. Tambahkan #workspace diikuti dengan jalur ke folder atau objek ruang kerja yang ingin Anda bagikan.

Dalam hal ini, jalur ruang kerja adalah ke folder, /Workspace/Users/user@example.com/team-git/notebooks. Setelah menyalin jalur lengkap dari ruang kerja, Anda sekarang dapat membuat tautan yang dapat dibagikan:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Contoh rumusan URL 2: URL Notebook

Untuk berbagi URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333buku catatan, hapus #notebook/2222222222222222/command/3333333333333333. Tambahkan #workspace diikuti dengan jalur ke folder atau objek ruang kerja.

Dalam hal ini, jalur ruang kerja menunjuk ke buku catatan, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Setelah menyalin jalur lengkap dari ruang kerja, Anda sekarang dapat membuat tautan yang dapat dibagikan:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Sekarang Anda memiliki URL stabil untuk jalur file, folder, atau buku catatan untuk dibagikan! Untuk informasi selengkapnya tentang URL dan pengidentifikasi, lihat Mendapatkan pengidentifikasi untuk objek ruang kerja.