Share via


Overzicht van de hoofdoorzaakanalyse

Met de hoofdoorzaakanalyse (RCA) kunt u verborgen verbindingen in uw gegevens vinden. U begrijpt bijvoorbeeld beter waarom sommige uitvoeringen langer duren om te voltooien dan andere, of waarom sommige uitvoeringen vastlopen in herbewerkingen terwijl andere soepel verlopen. RCA laat u de belangrijkste verschillen zien tussen dergelijke uitvoeringen.

Vereiste gegevens

RCA kan al uw kenmerken op uitvoeringsniveau, metrische gegevens en aangepaste metrische gegevens gebruiken om onderlinge verbindingen te vinden en een meetwaarde naar keuze.

U kunt het beste alle beschikbare gegevens opnemen als kenmerk op uitvoeringsniveau en RCA laten kiezen welk kenmerk daadwerkelijk van invloed is op de meetwaarde en welk kenmerk niet.

Hoe RCA werkt

Het RCA-algoritme berekent een boomstructuur waarbij elk knooppunt de gegevensset in twee kleinere delen splitst. Dit is gebaseerd op één variabele waarbij de beste correlatie wordt gevonden tussen de splitsing van de variabele en de doelmeetwaarde. Hieruit kunt u de verborgen verbindingen in de gegevens zien. Zo komt u te weten welke combinatie van kenmerken de uitvoering beïnvloedt en op welke manier.

Hoe RCA de beste splitsing vindt

Eerst genereren we honderden tot duizenden combinaties van mogelijke splitsingen. Vervolgens proberen we elke splitsing uit om te na te gaan hoe goed de gegevensset daadwerkelijk in twee delen wordt gesplitst. We berekenen de afwijkingen van de hoofdmeetwaarde in elk deel van de splitsing en berekenen de score voor elke splitsing met de volgende berekening:

scoresplitsing_x = afwijkinglinks * aantal uitvoeringenlinks + afwijkingrechts * aantal uitvoeringenrechts

Vervolgens sorteren we alle splitsingen aan de hand van deze score en worden de beste splitsingen genomen vanaf het begin, met de laagste score. Voor de categorische hoofdmeetwaarde (tekenreeks) berekenen we Gini-onzuiverheid in plaats van afwijking.

RCA-voorbeeld

In dit voorbeeld willen we de hoofdoorzaak achter de uitvoeringsduur zien. In de gegevens hebben we kenmerken op uitvoeringsniveau land van leverancier, stad van leverancier, materiaal,totaalbedrag en kostenplaats. De gemiddelde uitvoeringsduur is 46 uur.

Door de waarde van elk kenmerk afzonderlijk te bekijken, kunnen we zien dat de grootste invloed op de uitvoeringsduur wordt veroorzaakt wanneer supplier cityGraz is, waardoor de uitvoeringsduur gemiddeld 15 uur langer is. Uit deze eerste analyse kunnen we zien dat de andere waarden van kenmerken veel minder van invloed zijn op de doelmeetwaarden. Wanneer we echter het boommodel berekenen, kunnen we zien dat de bovenstaande berekening misleidend is (zoals in de volgende schermopname).

Schermopname van de beïnvloeder van de uitvoeringsduur.

De boomstructuur ziet er als volgt uit:

  • De eerste splitsing betreft de gegevens van de variabele material. De gegevens met aluminium bevinden zich aan de ene kant en alle other materialen aan de andere kant.

  • De tak aluminium wordt verder gesplitst in supplier country en in Germany en Austria.

  • De tak Austria wordt verder gesplitst in supplier city, met Graz aan de ene kant en Vienna aan de andere kant.

  • In het knooppunt Graz duurde de gemiddelde uitvoering 36 uur langer dan de algehele gemiddelde duur van 46 uur.

In dezelfde boom zien we dat als we een ander materiaal hebben dan aluminium, er ook een splitsing is op de variabele supplier city, waar aan de ene kant Graz staat en Vienna, Munich of Frankfurt aan de andere kant. Maar hier zijn de waarden het tegenovergestelde. Graz heeft veel betere statistieken dan Vienna of elke Duitse stad, met een gemiddelde uitvoering in Graz die 15 uur sneller is dan het algehele gemiddelde voor alle uitvoeringen.

Hieruit kunnen we opmaken dat de eerste statistieken misleidend zijn omdat Graz slecht presteert wanneer het materiaal aluminium is. Graz presteert echter bovengemiddeld wanneer het materiaal geen aluminium is en is volledig tegenovergesteld voor andere steden.

Invloed van uitvoeringsduur-statistieken houden alleen rekening met één waarde en kunnen soms misleidend zijn. RCA houdt rekening met combinaties hiervan om u meer inzicht te geven in uw proces.