Prezentare generală a analizei cauzei principale
Analiza cauzei principale (RCA) vă permite să găsiți conexiuni ascunse în datele dvs. De exemplu, vă ajută să înțelegeți de ce unele cazuri durează mai mult până la finalizare decât altele sau de ce unele cazuri rămân blocate în reprogramări, în timp ce altele se desfășoară fără probleme. RCA vă va arăta diferențele cheie dintre astfel de cazuri.
Date necesare
RCA poate folosi toate atributele la nivel de caz, valorile și valorile personalizate pentru a găsi conexiuni între ele și o valoare pe care o alegeți.
Cel mai bun exemplu este să includeți toate datele pe care le puteți ca atribut la nivel de caz și să lăsați RCA să aleagă care atribut influențează de fapt metrica și care nu.
Cum funcționează RCA
Algoritmul RCA va calcula o structură arborescentă în care fiecare nod va împărți setul de date în două părți mai mici. Aceasta se bazează pe o variabilă în care găsește cea mai bună corelație între împărțirea variabilei și valoarea țintă. Din aceasta, puteți vedea conexiunile ascunse în date. Aici vă va spune ce combinație de atribute va influența cazul în ce fel.
Cum RCA găsește cea mai bună divizare
În primul rând, generăm sute până la mii de combinații de posibile împărțiri. Apoi încercăm fiecare împărțire pentru a descoperi cât de bine va împărți efectiv setul de date în două părți. Calculăm varianța valorii principale în fiecare parte a împărțirii și calculăm scorul pentru fiecare împărțire cu următorul calcul:
scorsplit_x = varianțăstânga * număr de cazuristânga + variațiedreapta * număr de cazuridreapta
Apoi, sortăm toate împărțirile după acest scor și cele mai bune împărțiri sunt luate de la început, cu cel mai mic scor. Pentru metrica principală categorică (șir), calculăm impuritatea Gini în loc de varianță.
Exemplu de RCA
În acest exemplu, dorim să vedem cauza principală din spatele duratei cazului. În date, avem atribute la nivel de caz țara furnizorului, orașul furnizorului, material, suma totală și centrul de cost. Durata medie a cazului este de 46 de ore.
Privind fiecare valoare a fiecărui atribut separat, putem vedea că cel mai mare factor de influență al duratei cazului este atunci când orașul furnizorului este Graz, care mărește în medie durata cazului cu încă 15 ore. Din această analiză inițială, putem observa că celelalte valori ale atributelor influențează mult mai puțin metrica țintă. Cu toate acestea, când calculăm modelul arborelui, putem vedea că calculul de mai sus este înșelător (ca în următoarea captură de ecran).
Structura arborelui arată astfel:
Prima împărțire este datele de-a lungul variabilei material . Datele cu aluminiu se află pe o parte, iar toate celelalte materiale sunt pe cealaltă parte.
Sucursala aluminiu este împărțită în continuare de țara furnizor în Germania și Austria.
Sucursala Austria continuă cu o divizare de oraș furnizor, cu Graz pe o parte și Viena pe cealaltă.
În nodul Graz, cazul mediu a fost cu 36 de ore mai lent decât durata medie generală de 46 de ore.
În același arbore, putem observa că dacă avem un alt material decât aluminiul, acesta se împarte și prin variabila furnizor city, unde pe o parte este Graz și pe de altă parte se află Viena, Munchen sau Frankfurt. Dar aici, valorile sunt invers. Graz are statistici mult mai bune decât Viena sau orice oraș german, cu un caz mediu în Graz fiind cu 15 ore mai rapid decât media generală pentru toate cazurile.
Din aceasta, putem vedea că statisticile inițiale sunt înșelătoare, deoarece Graz are performanțe slabe când materialul este aluminiu. Cu toate acestea, are performanțe peste medie atunci când materialul este altul decât aluminiu și este complet opus pentru alte orașe.
Caz Duration Influence statisticile iau în considerare o singură valoare și uneori pot induce în eroare. RCA ia în considerare combinațiile acestora pentru a vă oferi mai multe perspective asupra procesului dvs.