Bagikan melalui


Gambaran umum analisis akar penyebab

Analisis akar penyebab (RCA) memungkinkan Anda menemukan koneksi tersembunyi dalam data Anda. Misalnya, ini membantu Anda memahami mengapa beberapa kasus membutuhkan waktu lebih lama untuk diselesaikan daripada yang lain, atau mengapa beberapa kasus terjebak dalam pengerjaan ulang sementara yang lain berjalan dengan lancar. RCA akan menunjukkan kepada Anda perbedaan utama antara kasus-kasus tersebut.

Data yang diperlukan

RCA dapat menggunakan semua atribut tingkat kasus Anda, metrik dan metrik khusus untuk menemukan koneksi di antara mereka, dan metrik yang Anda pilih.

Sampel terbaik adalah memasukkan semua data yang Anda bisa sebagai atribut tingkat kasus dan membiarkan RCA memilih atribut mana yang benar-benar memengaruhi metrik dan mana yang tidak.

Cara kerja RCA

Algoritma RCA akan menghitung struktur pohon di mana setiap node akan membagi dataset menjadi dua bagian yang lebih kecil. Ini didasarkan pada satu variabel di mana ia menemukan korelasi terbaik antara pemisahan variabel dan metrik target. Dari sini, Anda dapat melihat koneksi tersembunyi dalam data. Di sinilah ia akan memberi tahu Anda kombinasi atribut mana yang akan memengaruhi kasus dengan cara apa.

Bagaimana RCA menemukan split terbaik

Pertama, kami menghasilkan ratusan hingga ribuan kombinasi kemungkinan perpecahan. Kemudian kami mencoba setiap pemisahan untuk menemukan seberapa baik itu benar-benar akan membagi dataset menjadi dua bagian. Kami menghitung varians metrik utama di setiap bagian pemisahan dan menghitung skor untuk setiap pemisahan dengan perhitungan berikut:

Skorsplit_x = varianskiri * jumlah kasuskiri + varianskanan * jumlah kasuskanan

Kemudian, kami mengurutkan semua split dengan skor ini dan split terbaik diambil dari awal, dengan skor terendah. Untuk metrik utama kategoris (string), kami menghitung pengotor Gini alih-alih varians.

Contoh RCA

Dalam contoh ini, kita ingin melihat akar penyebab di balik durasi kasus. Dalam data, kami memiliki atribut tingkat kasus negara pemasok, kota pemasok, bahan, jumlah total, dan pusat biaya. Durasi kasus rata-rata adalah 46 jam.

Dengan melihat setiap nilai dari setiap atribut secara terpisah, kita dapat melihat bahwa influencer tertinggi dari durasi kasus adalah ketika kota pemasok adalah Graz, yang rata-rata meningkatkan durasi kasus dengan tambahan 15 jam. Dari analisis awal ini, kita dapat melihat bahwa nilai-nilai atribut lainnya mempengaruhi metrik target jauh lebih sedikit. Namun, ketika kita menghitung model pohon, kita dapat melihat bahwa perhitungan di atas menyesatkan (seperti pada tangkapan layar berikut).

Tangkapan layar influencer durasi kasus.

Struktur pohon terlihat seperti ini:

  • Pemisahan pertama adalah data sepanjang variabel material . Data dengan aluminium ada di satu sisi dan semua bahan lainnya ada di sisi lain.

  • Cabang aluminium dibagi lebih lanjut oleh negara pemasok ke Jerman dan Austria.

  • Cabang Austria berlanjut dengan perpecahan oleh kota pemasok, dengan Graz di satu sisi dan Wina di sisi lain.

  • Di simpul Graz, kasus rata-rata 36 jam lebih lambat dari durasi rata-rata keseluruhan 46 jam.

Di pohon yang sama, kita dapat melihat bahwa jika kita memiliki bahan lain selain aluminium, itu juga dibagi oleh kota pemasok variabel, di mana di satu sisi adalah Graz dan di sisi lain adalah Wina, Munich atau Frankfurt. Tapi di sini, nilainya sebaliknya. Graz memiliki statistik yang jauh lebih baik daripada Wina atau kota Jerman mana pun, dengan rata-rata kasus di Graz menjadi 15 jam lebih cepat daripada rata-rata keseluruhan untuk semua kasus.

Dari sini, kita dapat melihat bahwa statistik awal menyesatkan karena Graz berkinerja buruk ketika bahannya aluminium, Namun, kinerjanya di atas rata-rata ketika bahannya selain aluminium dan benar-benar berlawanan untuk kota-kota lain.

Statistik Pengaruh Durasi Kasus hanya memperhitungkan satu nilai dan terkadang bisa menyesatkan. RCA memperhitungkan kombinasi keduanya untuk memberi Anda lebih banyak wawasan tentang proses Anda.