예측 모델 탐색(중급 데이터 마이닝 자습서)
이제 예측 마이닝 모델을 작성했으므로 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭을 사용하여 결과를 탐색할 수 있습니다. Microsoft 시계열 뷰어에는 차트와 모델이 있습니다.
작성한 예측 마이닝 모델은 2005년에서 2010년 동안 유럽, 북미 및 태평양 세 지역의 제품 판매량을 설명합니다. 따라서 Microsoft 시계열 알고리즘은 여러 트리가 들어 있으며, 트리마다 지역, 제품 및 예측 가능한 특성의 여러 조합을 포함하는 하나의 시계열 모델을 만듭니다.
뷰어의 각 탭은 전체 시계열 모델의 다른 정보 보기를 표시합니다.
차트 탭
모델 탭
일반 콘텐츠 뷰
차트 탭
Microsoft 시계열 뷰어의 차트 탭은 알고리즘에서 만드는 각 트리를 그래픽으로 보여 줍니다. 시계열 트리에는 제품, 지역 및 예측 가능한 특성의 고유한 조합이 들어 있습니다.
뷰어 오른쪽의 범례에는 드롭다운 목록에서 선택한 시계열이 나열되고 각 시계열에 대한 확인란이 포함됩니다. 범례에서 확인란을 선택하거나 확인란의 선택을 취소하여 뷰어에 표시되는 시계열을 제어할 수 있습니다.
각 시계열에 사용된 색상이나 차트의 지점에 값이 표시되는지 여부와 같은 표시 옵션을 변경할 수 있습니다.
시계열을 선택하려면
표시되지 않으면 마이닝 모델 뷰어 탭의 차트 탭을 클릭합니다.
차트 뷰의 오른쪽에 있는 드롭다운 목록을 클릭한 다음 확인란을 모두 선택합니다. 차트에는 24개의 다른 계열선이 있어야 합니다.
확인을 클릭합니다.
차트 오른쪽에 있는 확인란에서 확인란의 선택을 취소하여 Amount를 기준으로 한 모든 계열에 대한 선을 임시로 숨깁니다.
이제 R750 및 R250 자전거와 관련된 확인란의 선택을 취소합니다.
이제 차트에 다음 6개 계열 선이 포함되므로 M200 및 T1000 자전거에 대한 추세를 보다 쉽게 비교할 수 있습니다.
M200 Europe: Quantity
M200 North America: Quantity
M200 Pacific: Quantity
T1000 Europe: Quantity t
T1000 North America: Quantity
T1000 Pacific: Quantity
차트에는 기록 데이터와 예측 데이터가 모두 표시됩니다. 예측 데이터는 기록 데이터와 구분하기 위해 음영 처리됩니다. 다른 계열을 쉽게 비교하기 위해 그래프에서 각 선과 관련된 색상을 변경할 수도 있습니다. 자세한 내용은 방법: 데이터 마이닝 뷰어에서 사용되는 색 변경을 참조하십시오.
추세 선은 모든 지역의 총 판매액이 대개 12개월 간격으로 증가하여 12월에 최고를 기록하는 것을 보여 줍니다. 예측에서도 일반적으로 이 추세가 계속됩니다. 차트를 보면 T1000 자전거에 대한 데이터가 다른 제품 계열의 데이터보다 훨씬 늦게 시작하는 것을 알 수 있습니다.
기본적으로 Analysis Services는 각 시계열에 대한 다섯 가지 예측 단계를 보여 줍니다. 이 값을 변경하여 더 많거나 적은 예측 단계를 표시할 수 있습니다. 오차 막대를 차트에 추가하여 예측에 대한 표준 편차를 그래픽으로 표시할 수도 있습니다.
차트 뷰에서 예측 및 표시 옵션을 변경하려면
예측 단계에 대한 값을 5에서 10으로 점차 변경한 다음 다시 6으로 변경합니다.
[!참고]
기록 데이터에 큰 변동이 있는 추세 선에서 변동은 예측 중에 증폭됩니다.
편차 표시 확인란을 선택합니다.
M200 계열에 대한 오차 막대 위에 마우스를 놓습니다.
T1000 Pacific 계열에 대한 오차 막대 위에 마우스를 놓습니다.
이러한 결과를 사용하여 추가 조사를 수행할 수 있습니다. 나중에 모든 지역의 평균이 되는 모델을 개발하므로 큰 변동에 영향을 받지 않습니다.
맨 위로 이동
모델 탭
데이터 마이닝 디자이너의 Microsoft 시계열 뷰어에 있는 모델 탭을 사용하면 시계열을 의사 결정 트리 그래프로 볼 수 있습니다. 모델에 포함된 각 계열에 대해 별도의 트리가 계산됩니다. 시계열 모델에서 의사 결정 트리 그래프에 단일 노드가 있을 수 있거나(시계열이 선형인 경우) 정규 의사 결정 트리처럼 각 분기와 관련된 여러 노드 및 조건이 있을 수 있습니다.
시계열의 의사 결정 트리 그래프에 있는 노드에는 다음 정보 중 일부가 포함되어 있습니다.
배경 컨트롤에서 지정한 예측 가능한 특성의 상태에 대한 사례의 집중. 노드 범례 창과 마우스를 트리의 개체 위에 놓았을 때 나타나는 도구 설명 모두에서 정확한 사례 개수를 알 수 있습니다.
노드의 회귀 수식. ARTXP 회귀 수식은 리프 노드에서만 사용할 수 있습니다. ARIMA 수식은 트리의 루트 노드에서 사용할 수 있습니다.
특성 범위를 나타내는 다이아몬드 차트. 다이아몬드는 노드의 평균에 있고 다이아몬드 너비는 해당 노드에서 특성의 분산을 나타냅니다.
시계열 모델의 의사 결정 트리를 보려면
뷰어의 모델 탭에 있는 트리 목록에서 M200 North America: Amount 계열을 선택합니다.
단일 노드가 그래프에 표시됩니다.
노드 위에 마우스 커서를 놓습니다.
All 노드에 대해 표시된 도구 설명에 전체 계열의 사례 수와 같은 정보와 데이터의 분석에서 파생된 시계열 수식이 포함됩니다.
노드를 클릭하고 마이닝 범례를 확인합니다.
마이닝 범례에 도구 설명의 정보와 비슷한 정보가 포함되지만 값 히스토그램을 비롯한 추가 세부 사항이 제공됩니다.
뷰어의 모델 탭에 있는 트리 목록에서 M200 Pacific: Amount 계열을 선택합니다.
이제 트리 그래프에 All 노드와 두 개의 자식 노드가 포함됩니다. 자식 노드의 텍스트는 트리를 분할하는 조건을 설명합니다.
자식 노드 중 하나에 마우스 커서를 놓고 도구 설명 내용을 검토합니다. 또는 노드를 클릭하고 마이닝 범례를 봅니다.
자식 노드에서 설명에 트리의 각 분기에 있는 사례 수와 트리를 분할한 추가 조건이 포함됩니다.
맨 위로 이동
일반 콘텐츠 트리 뷰어
Analysis Services는 시계열에 대한 사용자 지정 뷰어 외에 Microsoft일반 콘텐츠 트리 뷰어를 제공합니다. 이 뷰어는 사용한 알고리즘에 관계없이 모든 데이터 마이닝 모델에 사용될 수 있습니다. 일반 콘텐츠 트리 뷰어는 뷰어 드롭다운 목록에서 사용할 수 있습니다.
이 뷰어에서 각 마이닝 모델은 분석에 사용된 데이터나 알고리즘에 관계없이 노드 계열을 포함하는 트리로 나타냅니다. 각 노드는 데이터 하위 집합에 대한 정보를 나타냅니다. 노드의 정확한 콘텐츠는 예측 가능한 특성의 유형 및 알고리즘에 따라 다르지만 콘텐츠의 일반 스키마는 동일합니다.
만든 데이터 마이닝 모델은 ARTXP와 ARIMA 알고리즘을 조합한 혼합 모델이므로 Analysis Services는 각 알고리즘을 차례로 사용하여 각 시계열에 대한 별도의 ARTXP 및 ARIMA 모델을 만듭니다. 예측 마이닝 모델 검색에 Microsoft 시계열 뷰어를 사용하는 경우 Analysis Services는 두 알고리즘의 결과를 조합하고 마이닝 모델을 단일 트리로 표시합니다. 트리의 각 노드는 두 알고리즘의 일부 콘텐츠를 포함합니다.
그러나 Microsoft일반 콘텐츠 트리 뷰어를 사용하는 경우 각 알고리즘에 의해 생성된 콘텐츠는 예측 마이닝 모델 내에서 두 개의 다른 노드 형식으로 표시됩니다. 모델의 ARTXP 버전이나 모델의 ARIMA 버전을 드릴다운하여 세부 증가 수준을 볼 수 있습니다.
일반 콘텐츠 뷰어에서 특정 데이터 계열에 대한 세부 사항을 보려면
마이닝 모델 뷰어 탭의 뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
노드 캡션 창에서 최상위(All) 노드를 클릭합니다.
노드 정보 창에서 ATTRIBUTE_NAME에 대한 값을 확인합니다.
이 값은 이 노드에 포함된 제품 및 지역의 결합 또는 계열을 알려 줍니다. AdventureWorks 예제에서 최상위 노드는 M200 Europe 계열에 대한 것입니다.
노드 캡션 창에서 자식 노드가 있는 첫 번째 노드를 찾습니다.
계열 노드에 자식이 있을 경우 Microsoft 시계열 뷰어의 모델 탭에 표시된 트리 뷰에도 분기 구조가 있습니다.
노드를 확장하고 자식 노드 중 하나를 클릭합니다.
스키마의 NODE_DESCRIPTION 열에는 트리를 분할한 조건이 포함됩니다.
노드 캡션 창에서 최상위 ARIMA 노드를 클릭하고 모든 자식 노드가 표시될 때까지 노드를 확장합니다.
노드 정보 창에서 ATTRIBUTE_NAME에 대한 값을 확인합니다.
이 값은 이 노드에 포함된 시계열을 알려 줍니다. ARIMA 섹션의 최상위 노드는 (All) 섹션의 최상위 노드와 일치해야 합니다. AdventureWorks 예제에서 이 노드에는 M200 Europe 계열에 대한 ARIMA 분석이 포함되어 있습니다.
자세한 내용은 시계열 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)을 참조하십시오.
맨 위로 이동