Power BI 시각적 개체를 사용하여 이상값 식별

완료됨

이상값은 데이터에서 발견되는 변칙 유형으로, 기록 평균 또는 결과를 기준으로 예상하지 못한 값입니다. 다른 데이터 요소와 크게 다른 데이터 요소를 격리하는 이상값을 식별하고 이러한 차이가 발생하는 이유를 조사하기 위해 조치를 취하려고 합니다. 이 분석의 결과는 비즈니스 의사 결정에 중요한 영향을 줄 수 있습니다.

배송 창고에 대한 데이터를 분석한다고 가정하겠습니다. 주문 수가 특정 제품 범주에 대한 평균을 초과하여 급증한 것이 확인되었습니다. 먼저 이 제품 범주를 식별한 후 이상값에 대한 몇 가지 질문을 하려고 합니다.

  • 해당 일에 평균을 초과하는 배송이 발생했는가?

  • 이상값은 특정 창고에서만 발생했는가?

  • 단일 이벤트로 인해 특정 범주에 대한 주문이 급증했는가?

  • 지난달, 지난 분기, 지난해 또는 이전 연도에 이와 같은 날이 있었는가?

Power BI를 사용하면 데이터의 이상값을 식별할 수 있지만 그러려면 먼저 이상값을 구성하는 배후 논리를 확인해야 합니다. 무엇을 이상값으로 간주할지와 관련하여 계산과 같은 트리거 지점을 사용할 수 있습니다.

이상값을 식별하는 프로세스에는 데이터를 두 개의 그룹, 즉 이상값 데이터와 이상값 이외의 데이터로 구분하는 작업이 포함됩니다. 계산 열을 사용하여 이상값을 식별할 수 있지만, 결과는 데이터를 새로 고칠 때까지는 정적입니다. 이상값을 식별하는 더 좋은 방법은 시각화 또는 DAX 수식을 사용하는 것입니다. 이들 방법은 동적인 결과를 보장하기 때문입니다.

데이터에서 이상값을 식별한 후에는 슬라이서나 필터를 사용하여 해당 이상값을 강조 표시하고 다른 데이터에서 이상값을 쉽게 식별되도록 시각적 개체에 범례를 추가할 수 있습니다. 그런 다음, 이상값 데이터를 드릴인하여 자세한 분석을 얻을 수 있습니다.

시각적 개체를 사용하여 이상값 식별

이상값을 식별하는 데 사용할 가장 좋은 시각적 개체는 두 숫자 값 간의 관계를 보여 주는 분산형 차트입니다. 분산형 차트는 대규모 데이터 세트의 패턴을 표시하므로 이상값을 표시하는 데 적합합니다.

Power BI 보고서에 분산형 차트를 추가할 때는 관심 필드를 X축Y축 섹션에 각각 지정합니다. 이 경우 Orders Shipped 필드를 X축에, Qty Orders 필드를 Y축에 지정합니다.

분산형 차트를 채울 필드를 추가하는 스크린샷.

시각적 개체가 업데이트되어 선택한 필드에 따라 데이터가 표시되며, 이러한 데이터에서 이상값을 명확하게 파악할 수 있습니다. 이상값은 대량 데이터에서 벗어난 격리된 항목입니다.

이상값이 있는 분산형 차트의 스크린샷.

이제 데이터의 이상값을 식별할 수 있으며 이 값의 존재 이유를 조사하고 정정 작업을 할 수 있습니다.

DAX를 사용하여 이상값 식별

DAX를 사용하여 다음 수식과 같이 데이터의 이상값을 식별하는 측정을 만들 수 있습니다.

Outliers =
CALCULATE (
    [Order Qty],
    FILTER (
        VALUES ( Product[Product Name] ),
        COUNTROWS ( FILTER ( Sales, [Order Qty] >= [Min Qty] ) ) > 0
    )
)

주문 Qty는 Sales 테이블의 측정값이며 최소 Qty는 Sales 테이블에서 가장 낮은 주문 수량을 나타냅니다.

새 이상값 측정을 만든 경우 이전에 히스토그램을 만들 때와 마찬가지로 그룹화 기능을 사용하여 제품을 범주로 그룹화할 수 있습니다. 그런 다음, 이전 섹션에서 했던 것처럼 이상값을 표시하는 최상의 시각화 옵션인 분산형 차트 시각적 개체를 추가해야 합니다. 분산형 차트를 추가한 후에는 DAX 수식 및 이상값 측정과 연결된 필드로 차트를 채웁니다.

분산형 차트에서 사용할 이상값 논리 필드를 선택하는 스크린샷.

분산형 차트에서 데이터의 이상값을 식별할 수 있습니다. 그런 다음, 이 값이 존재하는 이유를 조사하고 정정 작업을 할 수 있습니다.

이상값을 채우는 분산형 차트의 스크린샷.