Pagrindinės priežasties analizės apžvalga
Pagrindinės priežasties analizė (RCA) leidžia rasti paslėptus ryšius jūsų duomenyse. Pavyzdžiui, tai padeda suprasti, kodėl kai kurie atvejai užtrunka ilgiau nei kiti arba kodėl kai kurie atvejai įstringa perdirbiniuose, o kiti veikia sklandžiai. RCA parodys pagrindinius tokių atvejų skirtumus.
Būtini duomenys
RCA gali naudoti visus jūsų atvejo lygio atributus, metriką ir tinkintą metriką, kad rastų ryšius tarp jų ir pasirinktą metriką.
Geriausias pavyzdys yra įtraukti visus duomenis, kuriuos galite naudoti kaip atvejo lygio atributą, ir leisti RCA pasirinkti, kuris atributas iš tikrųjų daro įtaką metrikai, o kuris ne.
Kaip veikia RCA
RCA algoritmas apskaičiuos medžio struktūrą, kurioje kiekvienas mazgas padalins duomenų rinkinį į dvi mažesnes dalis. Tai pagrįsta vienu kintamuoju, kuriame randama geriausia koreliacija tarp kintamojo padalijimo ir tikslinės metrikos. Iš to galite matyti paslėptus ryšius duomenyse. Čia jis jums pasakys, kuris atributų derinys kokiu būdu paveiks bylą.
Kaip RCA randa geriausią padalijimą
Pirma, mes generuojame nuo šimtų iki tūkstančių galimų padalijimų derinių. Tada bandome kiekvieną padalijimą, kad sužinotume, kaip gerai jis iš tikrųjų padalins duomenų rinkinį į dvi dalis. Mes apskaičiuojame pagrindinės metrikos dispersiją kiekvienoje padalijimo dalyje ir apskaičiuojame kiekvieno padalijimo balą atlikdami šį skaičiavimą:
balassplit_x = nuokrypiskairėje* atvejų skaičius kairėje + nuokrypis dešinėje* atvejų skaičius dešinėje
Tada mes rūšiuojame visus padalijimus pagal šį balą ir nuo pat pradžių imami geriausi padalijimai su mažiausiu balu. Kategorinei pagrindinei metrikai (eilutei) apskaičiuojame Gini priemaišą, o ne dispersiją.
RCA pavyzdys
Šiame pavyzdyje norime pamatyti pagrindinę atvejo trukmės priežastį. Duomenyse turime atvejo lygio atributus tiekėjo šalis , tiekėjo miestas, medžiaga , bendra suma irišlaidų centras . Vidutinė bylos trukmė yra 46 valandos.
Pažvelgę į kiekvieną kiekvieno atributo reikšmę atskirai, matome, kad didžiausias atvejo trukmės įtakotojas yra tada, kai tiekėjo miestas yra Gracas, kuris vidutiniškai padidina bylos trukmę papildomomis 15 valandų. Iš šios pradinės analizės matome, kad kitos atributų vertės daro daug mažesnę įtaką tikslinei metrikai. Tačiau kai apskaičiuojame medžio modelį, matome, kad aukščiau pateiktas skaičiavimas yra klaidinantis (kaip ir toliau pateiktoje ekrano kopijoje).
Medžio struktūra atrodo taip:
Pirmasis padalijimas yra duomenys pagal materialųjį kintamąjį. Duomenys su aliuminiu yra vienoje pusėje, o visos kitos medžiagos – kitoje.
Aliuminio atšaka toliau skirstoma pagal šalis tiekėjas į Vokietiją ir Austriją.
Austrijos filialas tęsiamas padalijimu pagal tiekėjų miestus, vienoje pusėje yra Gracas , o kitoje - Viena .
Graco mazgevidutinis atvejis buvo 36 valandomis lėtesnis už bendrą vidutinę 46 valandų trukmę.
Tame pačiame medyje matome, kad jei turime kitą medžiagą nei aliuminis, ji taip pat dalijasi pagal kintamo tiekėjo miestą, kur vienoje pusėje yra Gracas , o kitoje - Viena, Miunchenas ar Frankfurtas. Bet čia vertybės yra priešingos. Gracas turi daug geresnę statistiką nei Viena ar bet kuris Vokietijos miestas, o vidutinis atvejis Grace yra 15 valandų greitesnis už bendrą visų atvejų vidurkį.
Iš to matome, kad pradiniai statistiniai duomenys yra klaidinantys, nes Gracas prastai veikia, kai medžiaga yra aliuminis, Tačiau jis yra didesnis už vidurkį, kai medžiaga yra kita nei aliuminis ir yra visiškai priešinga kitiems miestams.
Atvejo trukmė Įtakos statistikoje atsižvelgiama tik į vieną vertę ir kartais ji gali būti klaidinanti. RCA atsižvelgia į jų derinius, kad suteiktų daugiau įžvalgų apie jūsų procesą.