Tổng quan về phân tích nguyên nhân gốc rễ
Phân tích nguyên nhân gốc rễ (RCA) cho phép bạn tìm các kết nối ẩn trong dữ liệu của mình. Ví dụ: nó giúp bạn hiểu tại sao một số trường hợp mất nhiều thời gian để hoàn thành hơn những trường hợp khác hoặc tại sao một số trường hợp gặp khó khăn khi làm lại trong khi những trường hợp khác chạy trơn tru. RCA sẽ cho bạn thấy sự khác biệt chính giữa các trường hợp như vậy.
Dữ liệu bắt buộc
RCA có thể sử dụng tất cả các thuộc tính cấp trường hợp, chỉ số và chỉ số tùy chỉnh của bạn để tìm kết nối giữa chúng và chỉ số bạn chọn.
Mẫu tốt nhất là bao gồm tất cả dữ liệu bạn có thể làm thuộc tính cấp trường hợp và để RCA thực hiện việc chọn thuộc tính nào thực sự ảnh hưởng đến số liệu và thuộc tính nào không.
RCA hoạt động như thế nào
Thuật toán RCA sẽ tính toán cấu trúc cây trong đó mỗi nút sẽ chia tập dữ liệu thành hai phần nhỏ hơn. Điều này dựa trên một biến mà nó tìm thấy mối tương quan tốt nhất giữa phần tách biến và chỉ số mục tiêu. Từ đây, bạn có thể thấy các kết nối ẩn trong dữ liệu. Đây là nơi nó sẽ cho bạn biết tổ hợp thuộc tính nào sẽ ảnh hưởng đến trường hợp theo cách nào.
Cách RCA tìm ra sự phân chia tốt nhất
Đầu tiên, chúng tôi tạo ra hàng trăm đến hàng nghìn kết hợp các phần tách có thể có. Sau đó, chúng tôi thử từng phần tách để khám phá xem nó thực sự chia tập dữ liệu thành hai phần tốt như thế nào. Chúng tôi tính toán phương sai của chỉ số chính trong mỗi phần của phần tách và tính điểm cho mỗi phần tách bằng phép tính sau:
điểmsplit_x = phương saitrái * số trường hợptrái + phương saiphải * số trường hợpphải
Sau đó, chúng tôi sắp xếp tất cả các phần tách theo số điểm này và phần tách tốt nhất được lấy ngay từ đầu, với số điểm thấp nhất. Đối với chỉ số chính phân loại (chuỗi), chúng tôi tính toán tạp chất Gini thay vì phương sai.
Ví dụ RCA
Trong ví dụ này, chúng tôi muốn xem nguyên nhân gốc rễ đằng sau thời lượng của trường hợp. Trong dữ liệu, chúng tôi có các thuộc tính cấp trường hợp quốc gia của nhà cung cấp, thành phố của nhà cung cấp, vật liệu, tổng số tiền và trung tâm chi phí. Thời lượng trường hợp trung bình là 46 giờ.
Bằng cách xem xét riêng từng giá trị của từng thuộc tính, chúng ta có thể thấy rằng yếu tố ảnh hưởng lớn nhất đến thời lượng của trường hợp là khi thành phố của nhà cung cấp là Graz, điều này làm tăng trung bình thời lượng của trường hợp thêm 15 giờ. Từ phân tích ban đầu này, chúng ta có thể thấy rằng các giá trị khác của thuộc tính ảnh hưởng đến chỉ số mục tiêu ít hơn nhiều. Tuy nhiên, khi tính toán mô hình cây, chúng ta có thể thấy rằng phép tính ở trên bị sai lệch (như trong ảnh chụp màn hình sau).
Cấu trúc cây trông như thế này:
Phần tách đầu tiên là dữ liệu dọc theo biến vật liệu . Dữ liệu với nhôm ở một bên và tất cả các vật liệu khác ở bên kia.
Nhánh nhôm được phân chia thêm bởi quốc gia nhà cung cấp thành Đức và Áo.
The Austria branch continues with a split by supplier city, with Graz on one side and Vienna on the other.
Trong nút Graz, trường hợp trung bình chậm hơn 36 giờ so với tổng thời lượng trung bình là 46 giờ.
Trong cùng một cây, chúng ta có thể thấy rằng nếu chúng ta có một vật liệu khác ngoài nhôm, thì nó cũng phân chia theo biến thành phố nhà cung cấp, trong đó một bên là Graz và bên kia là Vienna, Munich hoặc Frankfurt. Nhưng ở đây, các giá trị thì ngược lại. Graz có số liệu thống kê tốt hơn nhiều so với Vienna hoặc bất kỳ thành phố nào của Đức, với trường hợp trung bình ở Graz nhanh hơn 15 giờ so với mức trung bình chung cho tất cả các trường hợp.
Từ đó, chúng ta có thể thấy rằng các số liệu thống kê ban đầu là sai lệch vì Graz hoạt động kém khi vật liệu là nhôm, tuy nhiên, nó lại hoạt động trên mức trung bình khi vật liệu không phải nhôm và hoàn toàn ngược lại đối với các thành phố khác.
Số liệu thống kê về ảnh hưởng của khoảng thời gian trường hợp chỉ tính đến một giá trị và đôi khi có thể gây hiểu lầm. RCA tính đến sự kết hợp của chúng để cung cấp cho bạn thông tin chi tiết hơn về quy trình của bạn.