A kiváltó okok elemzésének áttekintése
A kiváltó okok elemzése (RCA) lehetővé teszi, hogy rejtett kapcsolatokat találjon az adatokban. Például segít megérteni, hogy egyes esetek miért tartanak tovább ideig, mint mások, vagy miért akadnak el egyes esetek az átdolgozások során, míg mások zökkenőmentesen futnak. Az RCA megmutatja az ilyen esetek közötti legfontosabb különbségeket.
Szükséges adatok
Az RCA felhasználhatja az összes esetszintű attribútumot, mutatót és egyéni mutatót, hogy kapcsolatot találjon közöttük, valamint egy Ön által választott mutatót.
A legjobb minta az, ha az összes lehetséges adatot esetszintű attribútumként adja meg, és hagyja, hogy az RCA válassza ki, hogy melyik attribútum befolyásolja ténylegesen a metrikát, és melyik nem.
Hogyan működik az RCA?
Az RCA algoritmus kiszámít egy fastruktúrát, ahol minden csomópont két kisebb részre osztja az adatkészletet. Ez egy változón alapul, ahol megtalálja a legjobb korrelációt a változó felosztása és a célmetrika között. Ebből láthatja az adatok rejtett kapcsolatait. Itt fogja megmondani, hogy az attribútumok mely kombinációja milyen módon befolyásolja az esetet.
Hogyan találja meg az RCA a legjobb felosztást
Először is, a lehetséges felosztások több száz-ezer kombinációját generáljuk. Ezután megpróbáljuk az egyes felosztásokat, hogy kiderítsük, mennyire fogja ténylegesen két részre osztani az adatkészletet. Kiszámítjuk a fő metrika varianciáját a felosztás egyes részeiben, és kiszámítjuk az egyes felosztások pontszámát a következő számítással:
pontszámsplit_x = variancia balra* esetek száma balra + variancia jobbra* esetekszáma jobbra
Ezután az összes felosztást e pontszám alapján rendezzük, és a legjobb részeket vesszük az elejétől kezdve, a legalacsonyabb pontszámmal. A kategorikus fő metrika (karakterlánc) esetében a variancia helyett a Gini-szennyeződést számítjuk ki.
RCA példa
Ebben a példában az eset időtartama mögötti kiváltó okot szeretnénk látni. Az adatokban esetszintű attribútumok vannak szállító ország, szállító város , anyag, teljes összeg és költséghely. Az ügy átlagos időtartama 46 óra.
Ha az egyes attribútumok egyes értékeit külön-külön vizsgáljuk, láthatjuk, hogy az eset időtartamának legnagyobb befolyásoló tényezője az, amikor a szállító városGraz, ami átlagosan további 15 órával növeli az eset időtartamát. Ebből a kezdeti elemzésből láthatjuk, hogy az attribútumok egyéb értékei sokkal kevésbé befolyásolják a célmetrikát. A famodell kiszámításakor azonban láthatjuk, hogy a fenti számítás félrevezető (mint az alábbi képernyőképen).
A fa szerkezete így néz ki:
Az első felosztás az anyagi változó mentén lévő adatok. Az alumíniummal kapcsolatos adatok az egyik oldalon vannak, az összes többi anyag pedig a másik oldalon.
Az alumínium üzletágat beszállító országok szerint tovább osztják Németországra és Ausztriára.
Az ausztriai kirendeltség folytatódik a beszállítóvárosok szerintifelosztással , az egyik oldalon Graz , a másikon Bécs áll.
A grazi csomópontbanaz átlagos eset 36 órával lassabb volt, mint a teljes átlagos 46 órás időtartam.
Ugyanebben a fában láthatjuk, hogy ha az alumíniumon kívül más anyagunk is van, akkor az is kettéválik a változó beszállító város szerint, ahol az egyik oldalon Graz , a másikon Bécs, München vagy Frankfurt található. De itt az értékek ellentétesek. Graznak sokkal jobb statisztikái vannak, mint Bécsnek vagy bármely német városnak, az átlagos grazi eset 15 órával gyorsabb, mint az összes eset átlaga.
Ebből láthatjuk, hogy a kezdeti statisztikák félrevezetőek, mert Graz rosszul teljesít, ha az anyag alumínium, azonban átlag felett teljesít, ha az anyag nem alumínium, és más városokban teljesen ellentétes.
Az eset időtartamának befolyásolására vonatkozó statisztikák csak egy értéket vesznek figyelembe, és néha félrevezetőek lehetnek. Az RCA figyelembe veszi ezek kombinációit, hogy több betekintést nyújtson a folyamatba.