Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menjelaskan cara menggunakan alat metrik komputasi asli di antarmuka pengguna Azure Databricks untuk mengumpulkan perangkat keras utama dan metrik Spark. Antarmuka pengguna metrik tersedia untuk komputasi tujuan umum dan pekerjaan.
Metrik tersedia nyaris waktu nyata dengan penundaan standar kurang dari satu menit. Metrik disimpan di penyimpanan yang dikelola Azure Databricks, bukan di penyimpanan pelanggan.
Komputasi tanpa server untuk buku catatan dan pekerjaan menggunakan analisis kueri sebagai pengganti antarmuka pengguna metrik. Untuk informasi selengkapnya tentang metrik komputasi tanpa server, lihat Lihat wawasan kueri.
Mengakses antarmuka metrik komputer
Untuk melihat UI metrik komputasi:
- Klik Hitung di bilah sisi.
- Klik sumber daya komputasi yang ingin Anda lihat metriknya.
- Klik pada tab Metrik.
Metrik perangkat keras untuk semua simpul ditampilkan secara default. Untuk melihat metrik Spark, klik menu drop-down berlabel Perangkat Keras dan pilih Spark. Anda juga dapat memilih GPU jika instans mendukung GPU.
Memfilter metrik menurut periode waktu
Anda dapat melihat metrik historis dengan memilih rentang waktu menggunakan filter pemilih tanggal. Metrik dikumpulkan setiap menit, sehingga Anda dapat memfilter berdasarkan rentang hari, jam, atau menit apa pun dari 30 hari terakhir. Klik ikon kalender untuk memilih dari rentang data yang telah ditentukan sebelumnya, atau klik di dalam kotak teks untuk menentukan nilai kustom.
Catatan
Interval waktu yang ditampilkan dalam bagan menyesuaikan berdasarkan lamanya waktu yang Anda lihat. Sebagian besar metrik adalah rata-rata berdasarkan interval waktu yang saat ini Anda lihat.
Anda juga bisa mendapatkan metrik terbaru dengan mengklik tombol Refresh.
Melihat metrik di tingkat simpul
Secara default, halaman metrik menunjukkan metrik untuk semua simpul dalam kluster (termasuk driver) rata-rata selama periode waktu.
Anda dapat melihat metrik untuk simpul individual dengan mengklik menu drop-down Semua simpul dan memilih simpul yang ingin Anda lihat metriknya. Metrik GPU hanya tersedia di tingkat simpul individual. Metrik Spark tidak tersedia untuk simpul individual.
Untuk membantu mengidentifikasi simpul outlier apa pun dalam kluster, Anda juga dapat melihat metrik untuk semua simpul individual pada satu halaman. Untuk mengakses tampilan ini, klik menu dropdown Semua simpul dan pilih Menurut simpul, lalu pilih subkataan metrik yang ingin Anda lihat.
Bagan metrik perangkat keras
Bagan metrik perangkat keras berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
-
Pemanfaatan CPU dan simpul aktif: Grafik garis menampilkan jumlah simpul aktif di setiap tanda waktu untuk komputasi yang diberikan. Grafik batang menampilkan persentase waktu yang dihabiskan CPU di setiap mode, berdasarkan total biaya detik CPU. Metrik pemanfaatan adalah rata-rata interval waktu yang ditampilkan dalam bagan. Berikut ini adalah mode terlacak:
- tamu: Jika Anda menjalankan VM, CPU yang digunakan VM tersebut
- iowait: Waktu yang dihabiskan untuk menunggu I/O
- menganggur: Waktu CPU tidak melakukan apa-apa
- irq: Waktu yang dihabiskan untuk permintaan interupsi
- bagus: Waktu yang digunakan oleh proses yang memiliki kebaikan positif, yang berarti prioritas yang lebih rendah daripada tugas lain
- softirq: Waktu yang dihabiskan untuk permintaan interupsi perangkat lunak
- steal: Jika Anda adalah VM, waktu VM lain "mencuri" dari CPU Anda
- system: Waktu yang dihabiskan di kernel
- pengguna: Waktu yang dihabiskan di userland
-
Pemanfaatan memori dan pertukaran: Grafik garis menunjukkan total penggunaan pertukaran memori berdasarkan mode, diukur dalam byte dan dirata-rata selama interval waktu yang ditampilkan. Grafik batang menunjukkan total penggunaan memori menurut mode, juga diukur dalam byte dan dirata-rata selama interval waktu yang ditampilkan. Jenis penggunaan berikut dilacak:
- digunakan: Total memori tingkat OS yang sedang digunakan, termasuk memori yang dipakai oleh proses latar belakang yang berjalan pada unit komputasi. Karena proses driver dan latar belakang menggunakan memori, penggunaan masih dapat muncul bahkan ketika tidak ada pekerjaan Spark yang berjalan.
- gratis: Memori yang tidak digunakan
- buffer: Memori yang digunakan oleh buffer kernel
- cache: Memori yang digunakan oleh cache sistem file pada tingkat OS
- Jaringan diterima dan ditransmisikan: Jumlah byte yang diterima dan ditransmisikan melalui jaringan oleh setiap perangkat, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Ruang sistem file gratis: Total penggunaan sistem file oleh setiap titik pemasangan, diukur dalam byte dan rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Bagan metrik Spark
Bagan metrik Spark berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
- Distribusi beban server: Petak ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul dalam resource komputasi. Setiap petak peta adalah tautan yang dapat diklik ke halaman metrik simpul individual.
- Tugas aktif: Jumlah total tugas yang dijalankan pada waktu tertentu, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Total tugas yang gagal: Jumlah total tugas yang gagal dalam pelaksana, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Total tugas yang diselesaikan: Jumlah total tugas yang telah selesai dalam pelaksana, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Jumlah total tugas: Jumlah total semua tugas (berjalan, gagal, dan selesai) dalam pelaksana, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
-
Total pembacaan acak: Ukuran total data baca acak, diukur dalam byte dan rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Shuffle readberarti jumlah data yang dibaca secara terserialisasi pada semua eksekutor di awal tahap. -
Total penulisan acak: Ukuran total data tulis acak, diukur dalam byte dan rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Shuffle Writeadalah jumlah semua data berseri tertulis pada semua pelaksana sebelum mengirimkan (biasanya pada akhir tahap). - Total durasi tugas: Total waktu yang berlalu yang dihabiskan JVM untuk menjalankan tugas pada pelaksana, diukur dalam hitungan detik dan rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Metrik bagan GPU
Catatan
Metrik GPU hanya tersedia di Databricks Runtime ML 13.3 ke atas.
Bagan metrik GPU berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
- Distribusi beban server: Bagan ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul.
- Pemanfaatan dekoder per-GPU: Persentase pemanfaatan dekoder GPU, rata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Per-GPU pemanfaatan encoder: Persentase pemanfaatan encoder GPU, dirata-ratakan berdasarkan interval waktu yang ditampilkan dalam bagan.
- Pemanfaatan memori buffer bingkai per-GPU dalam byte: Utilisasi memori buffer bingkai, diukur dalam byte dan dirata-ratakan berdasarkan interval waktu yang ditampilkan dalam bagan.
- Pemanfaatan memori per-GPU: Persentase pemanfaatan memori GPU, dihitung rata-rata berdasarkan interval waktu yang ditampilkan dalam bagan.
- Pemanfaatan Per-GPU: Persentase pemanfaatan GPU, yang dirata-ratakan berdasarkan interval waktu apa pun yang ditampilkan dalam bagan.
Pemecahan Masalah
Jika Anda melihat metrik yang tidak lengkap atau hilang selama satu periode, itu bisa menjadi salah satu masalah berikut:
- Pemadaman di layanan Databricks yang bertanggung jawab untuk mengkueri dan menyimpan metrik.
- Masalah jaringan di sisi pelanggan.
- Komputasi dalam keadaan tidak sehat atau sebelumnya dalam keadaan tidak sehat.