Menampilkan metrik komputasi

Artikel ini menjelaskan cara menggunakan alat metrik komputasi asli di antarmuka pengguna Azure Databricks untuk mengumpulkan perangkat keras utama dan metrik Spark. Antarmuka pengguna metrik tersedia untuk komputasi tujuan umum dan pekerjaan.

Metrik kluster selama 24 jam terakhir

Metrik tersedia nyaris waktu nyata dengan penundaan standar kurang dari satu menit. Metrik disimpan di penyimpanan yang dikelola Azure Databricks, bukan di penyimpanan pelanggan.

Komputasi tanpa server untuk buku catatan dan pekerjaan menggunakan analisis kueri sebagai pengganti antarmuka pengguna metrik. Untuk informasi selengkapnya tentang metrik komputasi tanpa server, lihat Lihat wawasan kueri.

Mengakses antarmuka metrik komputer

Untuk melihat UI metrik komputasi:

  1. Klik Hitung di bilah sisi.
  2. Klik sumber daya komputasi yang ingin Anda lihat metriknya.
  3. Klik pada tab Metrik.

Metrik perangkat keras untuk semua simpul ditampilkan secara default. Untuk melihat metrik Spark, klik menu drop-down berlabel Perangkat Keras dan pilih Spark. Anda juga dapat memilih GPU jika instans mendukung GPU.

Memfilter metrik menurut periode waktu

Anda dapat melihat metrik historis dengan memilih rentang waktu menggunakan filter pemilih tanggal. Metrik dikumpulkan setiap menit, sehingga Anda dapat memfilter berdasarkan rentang hari, jam, atau menit apa pun dari 30 hari terakhir. Klik ikon kalender untuk memilih dari rentang data yang telah ditentukan sebelumnya, atau klik di dalam kotak teks untuk menentukan nilai kustom.

Catatan

Interval waktu yang ditampilkan dalam bagan menyesuaikan berdasarkan lamanya waktu yang Anda lihat. Sebagian besar metrik adalah rata-rata berdasarkan interval waktu yang saat ini Anda lihat.

Anda juga bisa mendapatkan metrik terbaru dengan mengklik tombol Refresh.

Melihat metrik di tingkat simpul

Secara default, halaman metrik menunjukkan metrik untuk semua simpul dalam kluster (termasuk driver) rata-rata selama periode waktu.

Anda dapat melihat metrik untuk simpul individual dengan mengklik menu drop-down Semua simpul dan memilih simpul yang ingin Anda lihat metriknya. Metrik GPU hanya tersedia di tingkat simpul individual. Metrik Spark tidak tersedia untuk simpul individual.

Untuk membantu mengidentifikasi simpul outlier apa pun dalam kluster, Anda juga dapat melihat metrik untuk semua simpul individual pada satu halaman. Untuk mengakses tampilan ini, klik menu dropdown Semua simpul dan pilih Menurut simpul, lalu pilih subkataan metrik yang ingin Anda lihat.

Metrik kluster menurut simpul selama 24 jam terakhir

Bagan metrik perangkat keras

Bagan metrik perangkat keras berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:

  • Pemanfaatan CPU dan simpul aktif: Grafik garis menampilkan jumlah simpul aktif di setiap tanda waktu untuk komputasi yang diberikan. Grafik batang menampilkan persentase waktu yang dihabiskan CPU di setiap mode, berdasarkan total biaya detik CPU. Berikut ini adalah mode terlacak:
    • guest: Jika Anda menjalankan VM, CPU yang digunakan VM tersebut
    • iowait: Waktu yang dihabiskan untuk menunggu I/O
    • idle: Saat CPU tidak melakukan apa-apa
    • irq: Waktu yang dihabiskan untuk permintaan interupsi
    • nice: Waktu yang digunakan oleh proses yang memiliki kebaikan positif, yang berarti prioritas yang lebih rendah daripada tugas lain
    • softirq: Waktu yang dihabiskan untuk permintaan interupsi perangkat lunak
    • steal: Jika Anda adalah VM, waktu VM lain "mencuri" dari CPU Anda
    • system: Waktu yang dihabiskan di kernel
    • user: Waktu yang dihabiskan di userland
  • Penggunaan memori kontainer: Memori yang digunakan oleh kontainer Spark, rata-rata di semua simpul yang berlaku. Termasuk rata-rata memori yang tidak dapat diklaim kembali (Container memory used), cache halaman file OS (Container memory file cache), dan batas memori yang dikonfigurasi (Container memory limit).
  • Penggunaan tumpukan JVM: Penggunaan memori tumpukan JVM, rata-rata di semua simpul yang berlaku. Termasuk rata-rata penggunaan timbunan aktual, kapasitas timbunan, dan batas timbunan maksimum yang dikonfigurasi.
  • Jaringan diterima dan ditransmisikan: Jumlah byte yang diterima dan ditransmisikan melalui jaringan oleh setiap perangkat.
  • Ruang sistem file gratis: Total penggunaan sistem file oleh setiap titik pemasangan, diukur dalam byte.

Klik Penggunaan memori simpul di bagian bawah tab Perangkat Keras untuk memperluas bagan tambahan berikut:

  • Pemanfaatan memori dan pertukaran: Grafik baris menunjukkan total penggunaan pertukaran memori berdasarkan mode, diukur dalam byte. Grafik batang menunjukkan total penggunaan memori berdasarkan mode, juga diukur dalam byte. Jenis penggunaan berikut dilacak:
    • used: Total memori tingkat OS yang digunakan, termasuk memori yang digunakan oleh proses latar belakang yang berjalan pada sebuah sistem komputasi. Karena proses driver dan latar belakang menggunakan memori, penggunaan masih dapat muncul bahkan ketika tidak ada pekerjaan Spark yang berjalan.
    • other: Memori yang digunakan untuk tujuan selain used, , bufferatau cached
    • buffer: Memori yang digunakan oleh buffer kernel
    • cached: Memori yang digunakan oleh cache sistem file pada tingkat OS
    • free: Memori yang tidak digunakan. Apa pun yang tidak dikaitkan dengan salah satu kategori di atas dalam bagan tersebut adalah gratis.

Bagan metrik Spark

Bagan metrik Spark berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:

  • Distribusi beban server: Petak ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul dalam resource komputasi. Setiap petak peta adalah tautan yang dapat diklik ke halaman metrik simpul individual.
  • Tugas aktif: Jumlah total tugas yang dijalankan pada waktu tertentu.
  • Total tugas yang gagal: Jumlah total tugas yang gagal dalam pelaksana.
  • Total tugas yang telah diselesaikan: Jumlah total tugas yang telah diselesaikan dalam eksekutor.
  • Jumlah total tugas: Jumlah total semua tugas (berjalan, gagal, dan selesai) dalam pelaksana.
  • Total shuffle read: Ukuran total data baca dari proses shuffle, diukur dalam byte. Shuffle read berarti jumlah data yang dibaca secara terserialisasi pada semua eksekutor di awal tahap.
  • Total penulisan acak: Ukuran total data tulis acak, diukur dalam byte. Shuffle Write adalah jumlah semua data berseri tertulis pada semua pelaksana sebelum mengirimkan (biasanya pada akhir tahap).
  • Total durasi tugas: Total waktu yang berlalu yang dihabiskan JVM untuk menjalankan tugas pada pelaksana, diukur dalam hitungan detik.

Metrik bagan GPU

Catatan

Metrik GPU hanya tersedia di Databricks Runtime ML 13.3 ke atas.

Bagan metrik GPU berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:

  • Distribusi beban server: Bagan ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul.
  • Pemanfaatan dekoder per-GPU: Presentase penggunaan dekoder GPU.
  • Per-GPU penggunaan encoder: Persentase penggunaan encoder GPU.
  • Pemanfaatan memori buffer bingkai per-GPU dalam byte: Penggunaan memori buffer bingkai per GPU, diukur dalam byte.
  • Penggunaan memori per-GPU: Persentase pemanfaatan memori GPU.
  • Pemanfaatan per-GPU: Persentase pemanfaatan GPU.

Pemecahan Masalah

Jika Anda melihat metrik yang tidak lengkap atau hilang selama satu periode, itu bisa menjadi salah satu masalah berikut:

  • Pemadaman di layanan Databricks yang bertanggung jawab untuk mengkueri dan menyimpan metrik.
  • Masalah jaringan di sisi pelanggan.
  • Komputasi dalam keadaan tidak sehat atau sebelumnya dalam keadaan tidak sehat.