根本原因分析概述
根本原因分析 (RCA) 允许您在数据中查找隐藏的连接。 例如,它帮助您了解为什么有些案例比其他案例完成需要的时间长,或为什么有些案例在返工中停滞,而另一些案例则顺利运行。 RCA 将向您显示此类案例之间的主要差异。
所需数据
RCA 可以使用所有案例级属性、指标和自定义指标来查找案例之间的连接,以及您选择的指标。
最好的示例是包含可以作为案例级属性的所有数据,让 RCA 选择哪些属性实际上会影响指标,哪些不会。
RCA 的工作原理
RCA 算法将计算一个树结构,其中每个节点将数据集拆分成两个小部分。 这基于一个变量,它在其中找到变量拆分和目标指标之间的最合适的相关性。 然后,您可以在数据中查看隐藏的连接。 在此,您可以知道哪些属性组合将如何影响案例。
RCA 如何找到最合适的拆分
首先,我们生成成百上千的可能的拆分组合。 然后我们尝试每个拆分来发现它在实际中将数据集拆分为两个部分的效果。 我们计算拆分每个部分的主要指标的差值,然后使用以下计算计算每个拆分的分数:
分数split_x = 差值左 * 案例数左 + 差值右 * 案例数右
然后,我们根据这个分数对所有拆分进行排序,从开始时获得最佳拆分,分数为最低。 对于分类主要指标(字符串),我们计算基尼不纯度,而不是差值。
RCA 示例
在此示例中,我们希望看到案例持续时间背后的根本原因。 在数据中,我们有案例级属性供应商国家/地区、供应商城市、材料、总量和成本中心。 平均案例持续时间为 46 小时。
分别查看每个属性的每个值,我们可以看到,当供应商城市为格拉茨时,对案例持续时间的影响最大,这会使案例持续时间平均增加 15 小时。 从这个初步分析中,我们可以看到属性的其他值对目标指标的影响要小得多。 然而,当我们计算树模型时,我们可以看到上面的计算存在误导(如下面的屏幕截图所示)。
树结构如下所示:
第一个拆分是材料变量的数据。 铝的数据在一侧,所有其他材料在另一侧。
铝分支按供应商国家/地区进一步拆分为德国和奥地利。
奥地利分行继续按供应商城市拆分,格拉茨在一侧,维也纳在另一侧。
在格拉茨节点,平均案例持续时间比 46 小时的总体平均持续时间慢 36 小时。
在同一个树中,我们可以看到,如果我们有铝以外的另一种材料,它也会按变量供应商城市拆分,其中一侧是格拉茨,另一侧是维也纳、慕尼黑或法兰克福。 但在这里,值是相反的。 格拉茨的统计信息比维也纳或任何德国城市都好得多,格拉茨的平均案例持续时间比所有案例的总体持续时间快 15 小时。
从中我们可以看到,最初的统计信息存在误导,因为格拉茨在材料为铝时表现不佳。但是,在材料不是铝时表现高于平均水平,与其他城市完全相反。
案例持续时间影响统计信息只考虑一个值,有时可能会存在误导。 RCA 会考虑影响因素的组合,为您提供对流程的更多见解。