예측 모델에 대한 예측 비교(중급 데이터 마이닝 자습서)
이 단원의 이전 단계에서는 다음과 같은 세 개의 모델을 만들었습니다.
개별 모델 및 지역 데이터만 기반으로 하는 각 지역 및 모델 조합에 대한 예측
집계 데이터를 기반으로 하는 전세계 기준의 모든 모델에 대한 예측
집계 모델을 기반으로 하는 북미 지역의 M200 모델에 대한 예측
이 마지막 태스크에서는 각 모델에 대한 예측을 비교하여 일반화된 모델 사용이 결과에 끼치는 영향을 확인합니다.
예측 결과 비교
원래 마이닝 모델의 결과 분석에서는 특정 지역과 모델 선 사이의 큰 간격을 보여 주었습니다. M200 모델에 대한 추세 선은 매우 높은 반면 T1000 모델에 대한 추세 선은 낮고 상대적으로 평평했습니다.
여러 데이터 계열을 그래픽으로 그리고 관리하는 보다 정교한 도구를 제공하는 Microsoft Excel로 결과와 원래 데이터를 내보내 모든 예측이 포함된 차트를 만들 수 있습니다. 다음 다이어그램에서는 M200 제품 모델에 대한 추세 선을 보여 주고 집계 마이닝 모델을 사용하는 예측에 대해 첫 번째 마이닝 모델의 예측을 비교합니다.
이전 차트를 통해 집계 마이닝 모델에서 개별 데이터 계열의 변동폭을 최소화하면서 전체 추세가 유지됨을 알 수 있습니다. 다음 표에서는 비교를 위해 차트를 만드는 데 사용되는 데이터 계열 부분을 제공합니다.
계열 및 마이닝 모델 |
7/25/2008 |
8/25/2008 |
9/25/2008 |
10/25/2008 |
11/25/2008 |
---|---|---|---|---|---|
M200 Europe — 집계 |
143 |
126 |
115 |
119 |
94 |
M200 Europe — 특정 |
121 |
142 |
152 |
149 |
154 |
M200 North America — 집계 |
208 |
150 |
149 |
151 |
172 |
M200 North America — 특정 |
163 |
178 |
156 |
173 |
203 |
M200 Pacific — 집계 |
89 |
80 |
71 |
77 |
57 |
M200 Pacific — 특정 |
46 |
44 |
42 |
42 |
38 |
T1000 Europe — 집계 |
65 |
51 |
54 |
53 |
48 |
T1000 Europe — 특정 |
42 |
41 |
43 |
42 |
43 |
T1000 North America — 집계 |
103 |
84 |
79 |
85 |
68 |
T1000 North America — 특정 |
82 |
78 |
78 |
83 |
83 |
T1000 Pacific — 집계 |
68 |
52 |
48 |
56 |
44 |
T1000 Pacific — 특정 |
38 |
39 |
37 |
38 |
36 |
결론
예측에 사용할 수 있는 시계열 모델과 다른 데이터 계열에 적용할 수 있는 일반화된 모델을 만드는 방법을 배웠습니다.