Identyfikowanie wartości odstających za pomocą wizualizacji usługi Power BI

Ukończone

Wartość odstająca to typ anomalii danych —wartość, która jest nieoczekiwana lub zaskakująca w kontekście historycznych średnich bądź wyników. Zidentyfikowanie wartości odstających umożliwia wyizolowanie punktów danych, które znacząco różnią się od pozostałych punktów danych, a następnie podjęcie działań mających na celu zbadanie przyczyn występowania tych różnic. Wyniki tej analizy mogą mieć istotny wpływ na podejmowanie decyzji biznesowych.

Rozważmy scenariusz, w którym analizujesz dane dla magazynu wysyłkowego. Zauważasz, że liczba zamówień w określonej kategorii produktów wzrosła powyżej średniej. Najpierw chcesz określić, jaka jest to kategoria produktów. Następnie chcesz zadać kilka pytań dotyczących tej wartości odstającej:

  • Czy tamtego dnia liczba wysyłek była większa niż średnia?

  • Czy ta anomalia występuje w określonym magazynie?

  • Czy wzrost liczby zamówień w tej kategorii mógł wynikać z jednego zdarzenia?

  • Czy takie zdarzenie miało też miejsce w innych dniach ostatniego miesiąca, ostatniego kwartału, bieżącego lub poprzedniego roku?

Usługa Power BI umożliwia identyfikowanie wartości odstających w danych, ale najpierw należy określić, według jakiej logiki definiuje się wartości odstające. Do zdefiniowania wartości odstających można użyć punktów wyzwalacza, na przykład obliczeń.

Proces identyfikowania wartości odstających obejmuje segmentację danych na dwie grupy: w jednej z grup będą dane odstające, a w drugiej nie. Do identyfikowania wartości odstających można też użyć kolumn obliczeniowych, ale uzyskane w ten sposób wyniki będą statyczne do momentu odświeżenia danych. Lepszym sposobem identyfikacji wartości odstających jest użycie wizualizacji lub formuły języka DAX, ponieważ te metody zapewniają dynamiczne wyniki.

Po zidentyfikowaniu wartości odstających w danych możesz użyć fragmentatorów lub filtrów, aby je wyróżnić. Można też dodać do wizualizacji legendę, aby umożliwić rozpoznanie elementów odstających pośród innych danych. Następnie można przejść do szczegółów danych odstających, aby uzyskać bardziej szczegółową analizę.

Identyfikowanie wartości odstających za pomocą wizualizacji

Najlepszą wizualizacją do identyfikowania wartości odstających jest wykres punktowy, który pokazuje relację między dwiema wartościami liczbowymi. Wykresy punktowe pozwalają zauważyć wzorce w dużych zestawach danych, dlatego są idealnym rozwiązaniem do wyświetlania wartości odstających.

Podczas dodawania wykresu punktowego do raportu usługi Power BI interesujące pola należy umieścić odpowiednio w sekcjach Oś X i Oś Y. W naszym przypadku pole Orders Shipped (Wysłane zamówienia) znajduje się na osi X, a pole Qty Orders (Liczba zamówień) na osi Y.

Zrzut ekranu przedstawiający dodawanie pól w celu wypełnienia wykresu punktowego.

Wizualizacja zostanie zaktualizowana w celu wyświetlenia danych zgodnie z wybranymi polami, w efekcie czego będzie można łatwo znaleźć wartości odstające w danych — są to pojedyncze elementy, które znajdują się daleko od głównego zbioru danych.

Zrzut ekranu przedstawiający wykres punktowy ze wartościami odstające.

Teraz, gdy możesz już zidentyfikować wartości odstające w danych, możesz zbadać przyczyny ich istnienia i podjąć działania naprawcze.

Identyfikowanie wartości odstających za pomocą języka DAX

Za pomocą języka DAX możesz utworzyć miarę umożliwiającą zidentyfikowanie wartości odstających w danych. Może to być na przykład następująca formuła:

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

Order Qty to miara w tabeli Sales,a Min Qty odnosi się do najniższej liczby zamówień w tabeli Sales

Po utworzeniu nowej miary dla wartości odstających możesz zgrupować produkty w kategorie przy użyciu funkcji grupowania, tak jak wcześniej podczas tworzenia histogramu. Następnie należy dodać wizualizację wykresu punktowego, tak jak w poprzedniej sekcji, ponieważ jest to najlepsza opcja wizualizacji do wyświetlania wartości odstających. Po dodaniu wykresu punktowego należy wypełnić go polami skojarzonymi z formułą języka DAX i miarą dla wartości odstających.

Zrzut ekranu przedstawiający wybieranie pól logiki odstającej do użycia na wykresie punktowym.

Na takim wykresie punktowym będzie można zidentyfikować wartości odstające w danych. Następnie będzie można zbadać przyczyny ich występowania i podjąć działania naprawcze.

Zrzut ekranu przedstawiający wykres punktowy do wypełniania wartości odstających.