예측 모델 탐색(중간 데이터 마이닝 자습서)

이제 예측 마이닝 모델을 빌드했으므로 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭을 사용하여 결과를 탐색할 수 있습니다. Microsoft 시계열 뷰어에는 차트 와 모델이라는 두 개의 탭이 있습니다.

또한 모든 모델에서 Microsoft 일반 트리 뷰어를 사용할 수 있습니다. 각 보기는 시계열 모델의 정보에 대한 약간 다른 그림을 표시합니다.

차트 탭
모델 탭
Microsoft 일반 콘텐츠 뷰어

차트 탭

Microsoft 시계열 뷰어의 차트 탭에는 기록 데이터 및 예측을 비롯한 각 계열이 그래픽으로 표시됩니다. 시계열 그래프의 각 줄은 제품, 지역 및 예측 가능한 특성의 고유한 조합을 나타냅니다.

드롭다운 목록의 선택 항목에 따라 사용 가능한 시계열은 뷰어 오른쪽의 범례에 나열됩니다. 범례에서 확인란을 선택하고 선택을 취소하여 그래프에 표시되는 시계열을 제어할 수 있습니다.

각 시계열에 사용되는 색이나 차트의 포인트에 값이 표시되는지 여부와 같은 표시 옵션을 변경할 수도 있습니다.

시계열을 선택하려면

마이닝 모델 뷰어 탭의 차트 탭이 표시되지 않으면 클릭합니다.
차트 보기 오른쪽에 있는 드롭다운 목록을 클릭하고 모든 확인란을 선택합니다. OK를 클릭합니다.

이제 차트에 24개의 계열선이 포함되어야 합니다.
차트 오른쪽의 확인란에서 확인란의 선택을 취소하여 Amount를 기반으로 하는 모든 계열의 줄을 일시적으로 숨깁니다.

이제 R750 및 R250 자전거와 관련된 확인란의 선택을 취소합니다.

이제 차트에 다음 6개 계열 선만 포함되어 있으므로 M200 및 T1000 자전거의 추세를 보다 쉽게 비교할 수 있습니다.
- M200 유럽: 수량
- M200 북아메리카: 수량
- M200 Pacific: Quantity
- T1000 유럽: 수량
- T1000 북아메리카: 수량
- T1000 Pacific: Quantity

M200 및 T1000 수량을 예측하는 계열

이 뷰어에 표시되는 차트에는 기록 데이터와 예측 데이터가 모두 포함됩니다. 예측 데이터는 기록 데이터와 구분하기 위해 음영 처리됩니다. 다른 계열을 보다 쉽게 비교할 수 있도록 그래프의 각 선과 연결된 색을 변경할 수도 있습니다. 자세한 내용은 데이터 마이닝 뷰어에서 사용되는 색 변경을 참조하세요.

추세선에서 모든 지역의 총 판매량이 일반적으로 증가하고 있으며, 12월에는 12개월마다 최고조에 달합니다. 또한 차트에서 T1000 자전거의 데이터가 다른 제품 계열의 데이터보다 훨씬 늦게 시작되는 것을 볼 수 있습니다. 이는 최신 제품이지만 이 계열은 훨씬 적은 데이터를 기반으로 하므로 예측이 정확하지 않을 수 있기 때문입니다.

기본적으로 각 시계열에 대해 5개의 예측 단계가 점선으로 표시됩니다. 이 값을 변경하여 더 많거나 적은 예측을 볼 수 있습니다. 차트에 오차 막대를 추가하여 예측의 표준 편차를 그래픽으로 볼 수도 있습니다.

차트 보기에서 예측 및 표시 옵션을 변경하려면

예측 단계의 값을 점진적으로 변경하고 5에서 10으로 늘인 다음 다시 6으로 늘려 보세요.

기록 데이터에 큰 변동이 있는 경우 예측 수를 늘리면 변동이 반복되거나 증폭되는 경향이 있습니다. 이 시점에서 몇 가지 연구를 수행하여 기록 데이터의 큰 증가 원인을 이해하고 이러한 결과를 수락할지, 원본 데이터에서 어떤 종류의 수정을 모색할지 또는 모델에서 일종의 다듬기를 적용할지 결정해야 할 것입니다.
편차 표시 확인란을 선택합니다.

이 옵션은 예측된 각 값에 대한 예상 오류를 표시합니다.
X축의 배율을 확인합니다. 기록 및 예측 데이터에 대한 변경 내용은 항상 백분율로 표현되지만 실제 값은 그래프에 모든 값에 맞게 자동으로 조정됩니다. 따라서 시각적인 것에만 의존하지 않도록 모델을 비교할 때 주의해야 합니다. 정확한 값 또는 예측의 백분율 증가 및 값을 얻으려면 점선 또는 실선 위로 마우스를 일시 중지하거나 선을 클릭하여 마이닝 범례의 값을 봅니다.

팁: 마이닝 범 례가 표시되지 않으면 모델 보기로 전환하고 노드를 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

이러한 추세를 살펴보면 일부 시리즈의 데이터 부족에 대해 우려하고 모델별 평균 매출 또는 지역별 평균 매출을 통해 보다 안정적인 예측을 얻을 수 있을지 궁금합니다. 이 자습서의 뒷부분에서 이 방법을 살펴보겠습니다.

맨 위로 돌아가기

모델 탭

데이터 마이닝 디자이너에서 Microsoft 시계열 뷰어의 모델 탭을 사용하면 예측 모델을 트리 그래프 형식으로 볼 수 있습니다.

첫째, 데이터가 세 개의 서로 다른 지역(유럽, 북미 및 태평양)에서 여러 제품 라인(T1000 등)의 판매에 대한 두 가지 측정값(금액 및 수량)을 설명하기 때문에 빌드한 모델에는 실제로 24개의 서로 다른 트리가 포함되어 있으며, 각 트리는 서로 다른 지역, 제품 조합의 판매 패턴 모델을 나타냅니다. 및 예측 가능한 특성입니다.

모델 탭의 트리 드롭다운 목록에서 계열을 선택하여 보려는 제품 라인, 지역 및 판매 메트릭의 조합을 선택할 수 있습니다.

그렇다면 모델을 트리로 보면서 무엇을 배울 수 있을까요? 예를 들어 트리에 여러 수준이 있는 모델과 단일 노드가 있는 모델을 비교해 보겠습니다.

트리 그래프에 단일 노드가 포함된 경우 모델에서 찾은 추세는 대부분 시간이 지남에 따라 동질적입니다. 모두라는 레이블이 지정된 이 단일 노드를 사용하여 입력 변수와 결과 간의 관계를 설명하는 수식을 볼 수 있습니다.
시계열의 트리 그래프에 분기가 여러 개 있는 경우 검색된 시계열이 너무 복잡하여 단일 수식으로 나타낼 수 없습니다. 대신 트리 그래프에는 여러 분기가 포함될 수 있으며, 각 분기는 트리를 분할한 조건으로 레이블이 지정됩니다. 트리가 분할될 때 각 분기는 추세가 단일 수식으로 설명될 수 있는 다른 시간 세그먼트를 나타냅니다.

예를 들어 차트 그래프를 살펴보면 9월부터 연말 연시까지 판매량이 급격하게 증가하여 모델 보기로 전환하여 추세가 변경된 정확한 날짜를 확인할 수 있습니다. "9월 이전" 및 "9월 이후"를 나타내는 트리의 분기에는 분할까지의 판매 추세를 수학적으로 설명하는 수식 하나와 9월부터 연말 연시까지의 판매 추세를 설명하는 다른 수식이 포함됩니다.

시계열 모델에 대한 의사 결정 트리를 탐색하려면

뷰어의 모델 탭에 있는 트리 목록에서 T1000 Europe: Amount 계열을 선택합니다.

모두 레이블이 지정된 노드를 클릭합니다.

모든 노드의 경우 나타나는 도구 설명에는 전체 계열의 사례 수 및 데이터 분석에서 파생된 시계열 수식과 같은 정보가 포함됩니다.
Mining Legend이 표시되지 않으면 노드를 마우스 오른쪽 단추로 클릭하고 Show Legend를 선택합니다.

마이닝 레전드는 툴팁에 있는 것과 거의 동일한 정보를 제공합니다. 독립 변수가 불연속인 경우 노드의 변수 분포를 보여 주는 히스토그램도 표시됩니다.
볼 수 있는 다른 시계열을 선택하세요. 뷰어의 모델 탭에서 트리 목록을 사용하여 M200 북아메리카: 금액 계열을 선택합니다.

이제 트리 그래프에는 모두 노드와 두 개의 자식 노드가 포함됩니다. 자식 노드의 레이블을 살펴보면 추세선이 변경된 시점을 이해할 수 있습니다.

각 자식 노드에 대해 마이닝 범례의 설명에는 트리의 각 가지에 있는 사례의 수도 포함됩니다.

다음 목록에서는 트리 뷰어의 몇 가지 추가 기능에 대해 설명합니다.

배경 컨트롤을 사용하여 차트에 표시되는 변수를 변경할 수 있습니다. 기본적으로 배경 값이 Population으로 설정되기 때문에 더 어두운 노드에는 더 많은 사례가 포함됩니다. 노드에 있는 사례 수를 확인하려면 노드 위로 마우스를 일시 중지하고 나타나는 도구 설명을 보거나 노드를 클릭하고 노드 범 례 창에서 숫자를 봅니다.
노드에 대한 회귀 수식은 도구 설명에서 또는 노드를 클릭하여 볼 수도 있습니다. 혼합 모델을 만든 경우 두 개의 수식(리프 노드의 ARTXP)과 ARIMA(트리의 루트 노드)에 대한 수식을 볼 수 있습니다.
작은 다이아몬드는 연속 숫자를 나타내는 노드에서 사용됩니다. 특성의 범위는 다이아몬드가 놓인 막대에 표시됩니다. 다이아몬드는 노드의 평균을 중심으로 하며 다이아몬드의 너비는 해당 노드의 특성 분산을 나타냅니다.

맨 위로 돌아가기

(선택 사항) 일반 콘텐츠 트리 뷰어

Analysis Services는 시계열에 대한 사용자 지정 뷰어 외에도 모든 데이터 마이닝 모델에서 사용할 수 있는 MicrosoftGeneric 콘텐츠 트리 뷰어를 제공합니다. 이 뷰어는 다음과 같은 몇 가지 이점을 제공합니다.

Microsoft 시계열 뷰어: 이 보기는 두 알고리즘의 결과를 병합합니다. 각 계열을 개별적으로 볼 수는 있지만 각 알고리즘의 결과가 결합된 방법은 확인할 수 없습니다. 또한 이 보기에서 도구 설명 및 마이닝 범례는 가장 중요한 통계만 표시합니다.
일반 콘텐츠 트리 뷰어: 한 번에 모델에 사용된 모든 데이터 계열을 찾아서 볼 수 있으며, 혼합 모델을 만든 경우 ARIMA 및 ARTXP 트리가 모두 동일한 그래프에 표시됩니다.

이 뷰어를 사용하여 두 알고리즘의 모든 통계와 값의 분포를 가져올 수 있습니다.

ARIMA 및 ARTXP 분석에 대해 자세히 알고 싶은 데이터 마이닝의 전문가 사용자에게 권장됩니다.

일반 콘텐츠 뷰어에서 특정 데이터 계열에 대한 세부 정보를 보려면

마이닝 모델 뷰어 탭에서 뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
노드 캡션 창에서 맨 위(모두) 노드를 클릭합니다.
노드 세부 정보 창에서 ATTRIBUTE_NAME 값을 봅니다.

이 값은 이 노드에 포함된 계열 또는 제품 및 지역 조합을 보여줍니다. AdventureWorks 예제에서 최상위 노드는 M200 Europe 시리즈용입니다.
노드 캡션 창에서 자식 노드가 있는 첫 번째 노드를 찾습니다.

계열 노드에 자식이 있는 경우 Microsoft 시계열 뷰어의 모델 탭에 표시되는 트리 뷰에도 분기 구조가 있습니다.
노드를 확장하고 자식 노드 중 하나를 클릭합니다.

스키마의 NODE_DESCRIPTION 열에는 트리가 분할된 조건이 포함됩니다.
노드 캡션 창에서 맨 위 ARIMA 노드를 클릭하고 모든 자식 노드가 표시될 때까지 노드를 확장합니다.
노드 세부 정보 창에서 ATTRIBUTE_NAME 값을 봅니다.

이 값은 이 노드에 포함된 시계열을 알려줍니다. ARIMA 섹션의 맨 위 노드는 (모두) 섹션의 맨 위 노드와 일치해야 합니다. AdventureWorks 예제에서 이 노드에는 시리즈 M200 Europe에 대한 ARIMA 분석이 포함되어 있습니다.