Огляд аналізу першопричин

Аналіз першопричин (RCA) дозволяє знайти приховані з’єднання у ваших даних. Наприклад, це допоможе вам зрозуміти, чому деякі справи тривають довше, ніж інші, або чому деякі справи застряють у переробках, а інші працюють безперебійно. RCA покаже вам ключові відмінності між такими випадками.

Обов’язкові дані

RCA може використовувати всі атрибути вашого рівня інциденту, показники та спеціальні показники, щоб знайти зв’язки між ними, а також метрику на ваш вибір.

Найкращий зразок - включити всі дані, які ви можете як атрибут рівня регістру, і дозволити RCA вибрати, який атрибут насправді впливає на метрику, а який ні.

Як працює RCA

Алгоритм RCA обчислить деревоподібну структуру, де кожен вузол розділить набір даних на дві менші частини. Це базується на одній змінній, де вона знаходить найкращу кореляцію між розділенням змінної та цільовою метрикою. З цього можна побачити приховані з’єднання в даних. Тут він підкаже вам, яка комбінація атрибутів яким чином вплине на випадок.

Як RCA знаходить найкращий спліт

По-перше, ми генеруємо від сотень до тисяч комбінацій можливих сплітів. Потім ми спробуємо кожен розділ, щоб виявити, наскільки добре він насправді розділить набір даних на дві частини. Розраховуємо дисперсію основного показника в кожній частині спліта і обчислюємо бал для кожного спліта з таким розрахунком:

оцінкаsplit_x = дисперсіявліво* кількість справ ліворуч + відхиленняправоруч* кількість справправоруч

Потім ми сортуємо всі розділення за цим балом, і найкращі спліти беруться з самого початку, з найнижчим балом. Для категоріальної головної метрики (рядка) обчислимо домішку Джині замість дисперсії.

Приклад RCA

У цьому прикладі ми хочемо побачити першопричину тривалості справи. У даних ми маємо атрибути рівня інциденту: країна-постачальник, місто-постачальник , матеріал , загальна сума та центр витрат. Середня тривалість справи становить 46 годин.

Дивлячись на кожне значення кожного атрибута окремо, ми можемо побачити, що найбільший вплив на тривалість справи має місто-постачальник - це містоГрац, що в середньому збільшує тривалість справи ще на 15 годин. З цього початкового аналізу ми бачимо, що інші значення атрибутів впливають на цільову метрику набагато менше. Однак, коли ми обчислюємо деревоподібну модель, ми бачимо, що обчислення вище вводять в оману (як на наступному скріншоті).

Знімок екрана: інфлюенсер тривалості справи.

Будова дерева виглядає так:

  • Перший поділ - це дані вздовж матеріальної змінної. Дані з алюмінієм знаходяться на одній стороні, а всі інші матеріали - на іншій.

  • Алюмінієва галузь розділена за країною-постачальником на Німеччину та Австрію.

  • Австрійська філія продовжує розділятися на міста-постачальники, з одного боку - Грац , а з іншого - Відень .

  • У вузлі Грац середній випадок був на 36 годин повільнішим, ніж загальна середня тривалість 46 годин.

У тому ж дереві ми бачимо, що якщо у нас є інший матеріал, ніж алюміній, він також розділяється на змінне місто-постачальник, де з одного боку знаходиться Грац , а з іншого - Відень, Мюнхен або Франкфурт. Але тут цінності протилежні. Грац має набагато кращу статистику, ніж Відень чи будь-яке німецьке місто, середній випадок у Граці на 15 годин швидший, ніж загальний середній показник для всіх випадків.

З цього ми бачимо, що початкова статистика вводить в оману, оскільки Грац працює погано, коли матеріал алюмінієвий, Однак це працює вище середнього, коли матеріал відрізняється від алюмінію і абсолютно протилежний для інших міст.

Статистика впливу на тривалість справи враховує тільки одне значення і іноді може ввести в оману. RCA враховує їх комбінації, щоб дати вам більше уявлення про ваш процес.