Mendiagnosis insiden menggunakan Metrics Advisor
Penting
Mulai tanggal 20 September 2023, Anda tidak akan dapat membuat sumber daya Metrics Advisor baru. Layanan Metrics Advisor dihentikan pada 1 Oktober 2026.
Apa itu insiden?
Ketika ada anomali yang terdeteksi pada beberapa rangkaian waktu dalam satu metrik pada tanda waktu tertentu, Metrics Advisor akan secara otomatis mengelompokkan anomali yang berbagi akar penyebab yang sama ke dalam satu insiden. Insiden biasanya menunjukkan masalah nyata, Metrics Advisor melakukan analisis di atasnya dan memberikan wawasan analisis akar penyebab secara otomatis.
Ini akan secara signifikan menghilangkan upaya pelanggan untuk melihat setiap anomali satu per satu dan dengan cepat menemukan faktor yang paling penting untuk suatu masalah.
Peringatan yang dihasilkan oleh Metrics Advisor mungkin berisi beberapa insiden dan setiap insiden mungkin berisi beberapa anomali yang diambil pada rangkaian waktu yang berbeda pada tanda waktu yang sama.
Jalur untuk mendiagnosis insiden
Mendiagnosis dari pemberitahuan
Jika Anda telah mengonfigurasi hook dari jenis alamat email/Tim dan menerapkan setidaknya satu konfigurasi pemberitahuan. Maka Anda akan menerima pemberitahuan terus menerus yang meningkatkan insiden yang dianalisis oleh Metrics Advisor. Dalam pemberitahuan, ada daftar insiden dan deskripsi singkat. Untuk setiap insiden, ada tombol "Diagnosis", memilih tombol ini akan mengarahkan Anda ke halaman detail insiden untuk melihat wawasan diagnostik.
Mendiagnosis dari insiden di "Hub insiden"
Ada tempat sentral di Metrics Advisor yang mengumpulkan semua insiden yang telah diambil dan memudahkan pelacakan masalah yang sedang berlangsung. Memilih tab Hub Insiden di bilah navigasi kiri akan mencantumkan semua insiden dalam metrik yang dipilih. Dalam daftar insiden, pilih salah satunya untuk melihat wawasan diagnostik yang mendetail.
Mendiagnosis dari insiden yang tercantum dalam halaman metrik
Dalam halaman detail metrik, ada tab bernama Insiden yang mencantumkan insiden terbaru yang diambil untuk metrik ini. Daftar dapat difilter berdasarkan tingkat keparahan insiden atau nilai dimensi metrik.
Memilih satu insiden dalam daftar akan mengarahkan Anda ke halaman detail insiden untuk melihat wawasan diagnostik.
Alur diagnostik umum
Setelah diarahkan ke halaman detail insiden, Anda dapat memanfaatkan wawasan yang dianalisis secara otomatis oleh Metrics Advisor untuk dengan cepat menemukan akar penyebab masalah atau menggunakan alat analisis untuk mengevaluasi dampak masalah lebih lanjut. Ada tiga bagian dalam halaman detail insiden yang sesuai dengan tiga langkah utama untuk mendiagnosis insiden.
Langkah 1: Periksa ringkasan insiden saat ini
Bagian pertama mencantumkan ringkasan insiden saat ini, termasuk informasi dasar, tindakan & penelusuran, dan akar penyebab yang dianalisis.
Informasi dasar mencakup "rangkaian yang paling terdampak" dengan diagram, "waktu mulai & akhir dampak", "tingkat keparahan insiden", dan "anomali total yang disertakan". Dengan membaca ini, Anda bisa mendapatkan pemahaman dasar tentang masalah yang sedang berlangsung dan dampaknya.
Tindakan & penelusuran, ini digunakan untuk memfasilitasi kolaborasi tim pada insiden yang sedang berlangsung. Terkadang, satu insiden mungkin perlu melibatkan upaya anggota lintas tim untuk menganalisis dan menyelesaikannya. Semua orang yang memiliki izin untuk melihat insiden tersebut dapat menambahkan tindakan atau acara penelusuran.
Misalnya, setelah mendiagnosis insiden dan akar penyebab telah diidentifikasi, insinyur dapat menambahkan item penelusuran dengan jenis "kustomisasi" dan memasukkan akar penyebab di bagian komentar. Biarkan status sebagai "Aktif". Kemudian rekan tim lain dapat berbagi info yang sama dan mengetahui jika ada seseorang yang mengerjakan perbaikan. Anda juga dapat menambahkan item "Azure DevOps" untuk melacak insiden dengan tugas atau bug tertentu.
Akar penyebab yang dianalisis adalah hasil yang dianalisis secara otomatis. Metrics Advisor menganalisis semua anomali yang diambil pada rangkaian waktu dalam satu metrik dengan nilai dimensi yang berbeda pada tanda waktu yang sama. Kemudian melakukan korelasi, pengklusteran untuk mengelompokkan anomali bersama-sama dan menghasilkan saran akar penyebab.
Untuk metrik dengan beberapa dimensi, ini adalah kasus umum bahwa beberapa anomali akan terdeteksi pada saat yang bersamaan. Namun, anomali tersebut dapat memiliki akar penyebab yang sama. Alih-alih menganalisis semua anomali satu per satu, memanfaatkan akar penyebab yang dianalisis dapat menjadi cara paling efisien untuk mendiagnosis insiden saat ini.
Langkah 2: Melihat wawasan diagnostik lintas dimensi
Setelah mendapatkan informasi dasar dan wawasan analisis otomatis, Anda bisa mendapatkan informasi lebih detail tentang status abnormal pada dimensi lain dalam metrik yang sama dengan cara secara holistik menggunakan "Pohon diagnostik".
Untuk metrik dengan beberapa dimensi, Metrics Advisor mengategorikan rangkaian waktu ke dalam hierarki, yang dinamai Pohon diagnostik. Misalnya, metrik "pendapatan" dipantau oleh dua dimensi: "wilayah" dan "kategori". Meskipun nilai dimensi konkret, perlu ada nilai dimensi agregat, seperti "SUM". Kemudian rangkaian waktu "wilayah" = "SUM" dan "kategori" = "SUM" akan dikategorikan sebagai simpul akar di dalam pohon. Setiap kali ada anomali yang ditangkap pada dimensi "SUM", anomali tersebut dapat ditelusuri paling detail dan dianalisis untuk menemukan nilai dimensi spesifik mana yang paling berkontribusi pada anomali simpul induk. Pilih setiap simpul untuk memperluas dan melihat informasi mendetail.
Untuk mengaktifkan nilai dimensi "agregat" dalam metrik Anda
Metrics Advisor mendukung pelaksanaan "Roll-up" pada dimensi untuk menghitung nilai dimensi "agregat". Pohon diagnostik mendukung diagnosis pada agregasi "SUM", "AVG", "MAX", "MIN", "COUNT". Untuk mengaktifkan nilai dimensi "agregat", Anda dapat mengaktifkan fungsi "Roll-up" selama onboarding data. Pastikan metrik Anda dapat dihitung secara matematis dan dimensi agregat memiliki nilai bisnis yang nyata.
Jika tidak ada nilai dimensi "agregat" di metrik Anda
Jika tidak ada nilai dimensi "agregat" di metrik Anda dan fungsi "Roll-up" tidak diaktifkan selama onboarding data. Tidak akan ada nilai metrik yang dihitung untuk dimensi "agregat", namun akan muncul sebagai simpul abu-abu di pohon dan dapat diperluas untuk melihat node anaknya.
Legenda pohon diagnostik
Ada tiga jenis simpul di pohon diagnostik:
- Simpul biru, yang sesuai dengan rangkaian waktu dengan nilai metrik nyata.
- Simpul abu-abu, yang sesuai dengan rangkaian waktu virtual tanpa nilai metrik, itu adalah simpul logis.
- Simpul merah, yang sesuai dengan rangkaian waktu yang terkena dampak teratas dari insiden saat ini.
Untuk setiap simpul status abnormal dijelaskan oleh warna batas simpul
- Batas merah berarti ada anomali yang diambil pada rangkaian waktu yang sesuai dengan tanda waktu insiden.
- Batas non-merah berarti tidak ada anomali yang ditangkap pada rangkaian waktu yang sesuai dengan tanda waktu insiden.
Mode tampilan
Ada dua mode tampilan untuk pohon diagnostik: hanya menampilkan rangkaian anomali atau menampilkan proporsi utama.
- Hanya menampilkan mode rangkaian anomali memungkinkan pelanggan untuk fokus di anomali saat ini yang diambil pada rangkaian yang berbeda dan mendiagnosis akar penyebab rangkaian yang terkena dampak teratas.
- Menampilkan proporsi utama memungkinkan pelanggan untuk memeriksa status abnormal proporsi utama dari rangkaian yang terkena dampak teratas. Dalam mode ini, pohon akan menampilkan kedua rangkaian dengan anomali terdeteksi dan rangkaian tanpa anomali. Tapi lebih fokus pada rangkaian penting.
Opsi analisis
Menampilkan rasio delta
"Rasio delta" adalah persentase delta simpul saat ini dibandingkan dengan delta simpul induk. Berikut rumusnya:
(nilai riil simpul saat ini - nilai yang diharapkan dari simpul saat ini) / (nilai riil simpul induk - nilai yang diharapkan dari simpul induk) * 100%
Rumus ini digunakan untuk menganalisis kontribusi utama delta simpul induk.
Menampilkan proporsi nilai
"Proporsi nilai" adalah persentase nilai simpul saat ini dibandingkan dengan nilai simpul induk. Berikut rumusnya:
(nilai riil simpul saat ini / nilai riil simpul induk) * 100%
Rumus ini digunakan untuk mengevaluasi proporsi simpul saat ini secara keseluruhan.
Dengan menggunakan "Pohon diagnostik", pelanggan dapat menemukan akar penyebab insiden saat ini ke dimensi tertentu. Secara signifikan menghilangkan upaya pelanggan untuk melihat setiap anomali satu per satu atau berputar melalui dimensi yang berbeda untuk menemukan kontribusi anomali utama.
Langkah 3: Melihat wawasan diagnostik lintas metrik menggunakan "Grafik metrik"
Terkadang, sulit untuk menganalisis masalah dengan memeriksa status abnormal dari satu metrik, tetapi kita perlu menghubungkan beberapa metrik bersama-sama. Pelanggan dapat mengonfigurasi Grafik metrik yang menunjukkan hubungan antarmetrik. Lihat Cara membuat grafik metrik untuk memulai.
Periksa status anomali pada dimensi akar penyebab dalam "Grafik metrik"
Dengan memanfaatkan hasil diagnostik lintas dimensi di atas, akar penyebabnya terbatas pada nilai dimensi tertentu. Kemudian gunakan "Grafik metrik" dan filter menurut dimensi akar penyebab yang dianalisis untuk memeriksa status anomali pada metrik lain.
Misalnya, jika ada insiden yang diambil pada metrik "pendapatan". Rangkaian yang terdampak teratas berada di wilayah global dengan "wilayah" = "SUM". Dengan menggunakan diagnostik lintas dimensi, akar penyebabnya telah ditemukan di "wilayah" = "Karachi". Ada grafik metrik yang telah dikonfigurasi sebelumnya, termasuk metrik "pendapatan", "biaya", "DAU", "PLT (waktu memuat halaman)" dan "CHR (tingkat hit singgahan)".
Metrics Advisor akan secara otomatis memfilter grafik metrik menurut dimensi akar penyebab "wilayah" = "Karachi" dan menampilkan status anomali dari setiap metrik. Dengan menganalisis hubungan antara metrik dan status anomali, pelanggan dapat memperoleh wawasan lebih lanjut tentang apa akar penyebab akhir.
Anomali terkait otomatis
Dengan menerapkan filter dimensi akar penyebab pada grafik metrik, anomali pada setiap metrik pada tanda waktu insiden saat ini akan terkait secara otomatis. Anomali tersebut harus terkait dengan akar penyebab yang diidentifikasi dari insiden saat ini.