다음을 통해 공유


예측 모델에 대한 예측 비교(중간 데이터 마이닝 자습서)

이 자습서의 이전 단계에서는 여러 시계열 모델을 만들었습니다.

  • 개별 모델 및 지역에 대한 데이터만을 기반으로 지역 및 모델의 각 조합에 대한 예측입니다.

  • 업데이트된 데이터를 기반으로 각 지역에 대한 예측입니다.

  • 집계된 데이터를 기반으로 전 세계 모든 모델에 대한 예측입니다.

  • 집계된 모델을 기반으로 북미 지역의 M200 모델에 대한 예측입니다.

시계열 예측의 기능을 요약하기 위해 변경 내용을 검토하여 예측 결과에 영향을 미치는 데이터를 확장하거나 대체하는 옵션을 사용하는 방법을 확인합니다.

EXTEND_MODEL_CASES

REPLACE_MODEL_CASES

데이터를 추가한 후 원본 결과와 결과 비교

새 데이터로 모델을 업데이트하면 결과에 어떤 영향을 미치는지 알아보려면 태평양 지역의 M200 제품 라인에 대한 데이터만 살펴보겠습니다. 원래 데이터 시리즈는 2004년 6월에 종료되었으며 7월, 8월 및 9월에 대한 새 데이터를 얻었습니다.

  • 첫 번째 열에는 추가된 새 데이터가 표시됩니다.

  • 두 번째 열에는 원래 데이터 계열을 기반으로 하는 7월 이상 예측이 표시됩니다.

  • 세 번째 열은 확장된 데이터를 기반으로 한 예측을 보여 있습니다.

M200 Pacific 실제 판매 데이터 업데이트 데이터가 추가되기 전 예측 확장 예측
7-25-2008 65 32 65
8-25-2008 54 37 54
9-25-2008 61 32 61
10-25-2008 데이터 없음 36 32
11-25-2008 데이터 없음 31 41
12-25-2008 데이터 없음 34 32

확장 데이터를 사용하는 예측(여기에 굵게 표시됨)은 실제 데이터 요소를 정확하게 반복합니다. 반복은 의도적으로 설계되었습니다. 사용할 실제 데이터 요소가 있는 한 예측 쿼리는 실제 값을 반환하고 새 실제 데이터 요소를 사용한 후에만 새 예측 값을 출력합니다.

일반적으로 알고리즘은 모델 데이터의 시작 부분의 데이터보다 새 데이터의 변경 내용에 가중치를 더 많이 적용합니다. 그러나 이 경우 새 판매 수치는 이전 기간에 비해 20~30%의 증가만을 나타내므로 예상 판매량이 약간 상승했으며, 그 후 새 데이터 이전 달의 추세에 따라 판매 예측이 다시 하락했습니다.

원본 및 교차 예측 결과 비교

원래 마이닝 모델은 지역과 제품 라인 간에 큰 차이를 보였습니다. 예를 들어 M200 모델의 판매는 매우 강력했고 T1000 모델의 판매량은 모든 지역에서 상당히 낮았습니다. 또한 일부 시리즈에는 데이터가 많지 않았습니다. 시리즈는 비정형이었으며, 이는 동일한 시작점이 없다는 것을 의미합니다.

M200 및 T1000 수량을 예측하는 계열

그렇다면 원래 데이터 세트가 아닌 전 세계 매출을 기반으로 한 일반 모델을 기반으로 프로젝션을 만들 때 예측이 어떻게 변경되었나요? 정보를 손실하거나 예측을 왜곡하지 않도록 하려면 결과를 테이블에 저장하고 예측 테이블을 기록 데이터 테이블에 조인한 다음 두 개의 기록 데이터 및 예측 집합을 그래프로 표시할 수 있습니다.

다음 다이어그램은 하나의 제품 라인인 M200을 기반으로 합니다. 그래프는 집계된 마이닝 모델을 사용하는 예측과 초기 마이닝 모델의 예측을 비교합니다.

예측을 비교하는 Excel 차트

이 다이어그램에서 집계된 마이닝 모델은 개별 데이터 계열의 변동을 최소화하면서 값의 전체 범위와 추세를 유지하는 것을 볼 수 있습니다.

결론

예측에 사용할 수 있는 시계열 모델을 만들고 사용자 지정하는 방법을 알아보았습니다.

새 데이터를 추가하고 매개 변수인 EXTEND_MODEL_CASES 사용하여 예측을 만들어 시계열 모델을 다시 처리하지 않고도 업데이트하는 방법을 배웠습니다.

REPLACE_MODEL_CASES 매개 변수를 사용하고 모델을 다른 데이터 계열에 적용하여 교차 예측에 사용할 수 있는 모델을 만드는 방법을 배웠습니다.

또한 참조하십시오

중간 데이터 마이닝 자습서(Analysis Services - 데이터 마이닝)
시계열 모델 쿼리 예제