이 작업에서는 전 세계 판매 데이터를 기반으로 새 모델을 빌드합니다. 그런 다음, 개별 지역 중 하나에 전 세계 판매 모델을 적용하는 예측 쿼리를 만듭니다.
일반 모델 빌드
원래 마이닝 모델의 결과를 분석한 결과 지역과 제품 라인 간에 큰 차이가 있음을 알 수 있습니다. 예를 들어 북미 지역의 판매는 M200 모델에 대해 강력했으며 T1000 모델의 판매도 그렇지 않았습니다. 그러나 일부 시리즈에는 데이터가 많지 않거나 데이터가 다른 시점에 시작되어 분석이 복잡해집니다. 일부 데이터도 누락되었습니다.
일부 데이터 품질 문제를 해결하기 위해 전 세계 판매의 데이터를 병합하고 일반 판매 추세 집합을 사용하여 모든 지역의 향후 판매를 예측하기 위해 적용할 수 있는 모델을 빌드하기로 결정합니다.
예측을 만들 때는 전 세계 판매 데이터에 대한 교육을 통해 생성되는 패턴을 사용하지만 기록 데이터 요소를 각 개별 지역의 판매 데이터로 바꿉니다. 이렇게 하면 추세의 모양이 유지되지만 예측 값은 각 지역 및 모델의 기록 판매 수치와 일치합니다.
시계열 모델을 사용하여 교차 예측 수행
한 계열의 데이터를 사용하여 다른 계열의 추세를 예측하는 프로세스를 교차 예측이라고 합니다. 여러 시나리오에서 교차 예측을 사용할 수 있습니다. 예를 들어 TV 판매가 전체 경제 활동의 좋은 예측 변수라고 판단하고 일반 경제 데이터에 TV 판매에 대해 학습된 모델을 적용할 수 있습니다.
SQL Server 데이터 마이닝에서 매개 변수 REPLACE_MODEL_CASES 사용하여 DMX(PredictTimeSeries) 함수에 대한 인수 내에서 교차 예측을 수행합니다.
다음 작업에서는 REPLACE_MODEL_CASES 사용하는 방법을 알아봅니다. 병합된 World Sales 데이터를 사용하여 모델을 빌드한 다음 일반 모델을 대체 데이터에 매핑하는 예측 쿼리를 만듭니다.
지금까지 데이터 마이닝 모델을 빌드하는 방법을 잘 알고 있으므로 모델을 빌드하기 위한 지침이 간소화되었다고 가정합니다.
집계된 데이터를 사용하여 마이닝 구조 및 마이닝 모델을 빌드하려면
솔루션 탐색기에서 마이닝 구조를 마우스 오른쪽 단추로 클릭한 다음 새 마이닝 구조를 선택하여 데이터 마이닝 마법사를 시작합니다.
데이터 마이닝 마법사에서 다음을 선택합니다.
알고리즘: Microsoft 시계열
이 고급 단원의 앞부분에서 빌드한 데이터 원본을 모델의 원본으로 사용합니다. 고급 시계열 예측(중간 데이터 마이닝 자습서)을 참조하세요.
데이터 원본 뷰:
AllRegions계열 키 및 시간 키에 대해 다음 열을 선택합니다.
주요 시간: 보고 날짜
키: 지역
Input및Predict를 위한 다음 열을 선택하세요.SumQty
SumAmt
AvgAmt
AvgQty
마이닝 구조 이름의 경우 다음을 입력합니다.
All Regions마이닝 모델 이름의 경우 다음을 입력합니다.
All Regions
새 구조와 새 모델을 처리합니다.
예측 쿼리를 빌드하고 대체 데이터를 매핑하려면
모델이 아직 열려 있지 않으면 AllRegions 구조를 두 번 클릭하고 데이터 마이닝 디자이너에서 마이닝 모델 예측 탭을 클릭합니다.
마이닝 모델 창에서 AllRegions 모델을 이미 선택해야 합니다. 선택하지 않은 경우 모델 선택을 클릭한 다음 모델인 AllRegions를 선택합니다.
입력 테이블 선택 창에서 사례 테이블 선택을 클릭합니다.
테이블 선택 대화 상자에서 데이터 원본을 T1000 태평양 지역으로 변경한 다음 확인을 클릭합니다.
마이닝 모델과 입력 데이터 사이의 조인 줄을 마우스 오른쪽 단추로 클릭하고 연결 수정을 선택합니다. 다음과 같이 데이터 원본 뷰의 데이터를 모델에 매핑합니다.
마이닝 모델의 ReportingDate 열이 입력 데이터의 ReportingDate 열에 매핑되는지 확인합니다.
매핑 수정 대화 상자의 모델 열 AvgQty 행에서 테이블 열 아래를 클릭한 다음 T1000 Pacific.Quantity를 선택합니다. OK를 클릭합니다.
이 단계에서는 평균 수량을 예측하기 위해 모델에서 만든 열을 판매 수량에 대한 T1000 시리즈의 실제 데이터에 매핑합니다.
모델의 열 영역을 입력 열에 매핑하지 마세요.
모델은 모든 계열에서 데이터를 집계했기 때문에 T1000 Pacific과 같은 계열 값과 일치하지 않으며 예측 쿼리가 실행될 때 오류가 발생합니다.
이제 예측 쿼리를 빌드합니다.
먼저 예측과 함께 모델에서 AllRegions 레이블을 출력하는 결과에 열을 추가합니다. 이렇게 하면 결과가 일반 모델을 기반으로 했다는 것을 알 수 있습니다.
표에서 원본 아래의 첫 번째 빈 행을 클릭한 다음 AllRegions 마이닝 모델을 선택합니다.
필드의 경우 지역을 선택합니다.
별칭의 경우 사용된 모델을 입력합니다.
다음으로 예측의 계열을 확인할 수 있도록 결과에 다른 레이블을 추가합니다.
빈 행을 클릭하고 원본에서 사용자 지정 식을 선택합니다.
별칭 열에 ModelRegion을 입력합니다.
조건/인수 열에 .를 입력합니다
'T1000 Pacific'.
이제 교차 예측 함수를 설정합니다.
빈 행을 클릭하고 원본에서 예측 함수를 선택합니다.
필드 열에서 PredictTimeSeries를 선택합니다.
별칭의 경우 예측 값을 입력합니다.
끌어서 놓기 작업을 사용하여 마이닝 모델 창에서 조건/인수 열로 AvgQty 필드를 끕니다.
조건/인수 열의 필드 이름 다음에 다음 텍스트를 입력합니다.
,5, REPLACE_MODEL_CASES조건/인수 텍스트 상자의 전체 텍스트는 다음과 같습니다.
[AllRegions].[AvgQty],5,REPLACE_MODEL_CASES
결과를 클릭합니다.
DMX에서 교차 예측 쿼리 만들기
교차 예측에 문제가 있을 수 있습니다. 즉, 북미 지역의 T1000 제품 모델과 같은 다른 데이터 계열에 일반 모델을 적용하려면 각 계열에 대해 다른 쿼리를 만들어야 각 입력 집합을 모델에 매핑할 수 있습니다.
그러나 디자이너에서 쿼리를 작성하는 대신 DMX 보기로 전환하고 만든 DMX 문을 편집할 수 있습니다. 예를 들어 다음 DMX 문은 방금 빌드한 쿼리를 나타냅니다.
SELECT
([All Regions].[Region]) as [Model Used],
('T-1000 Pacific') as [ModelRegion],
(PredictTimeSeries([All Regions].[Avg Qty],5, REPLACE_MODEL_CASES)) as [Predicted Quantity]
FROM [All Regions]
PREDICTION JOIN
OPENQUERY([Adventure Works DW2003R2], 'SELECT [ReportingDate] FROM
(
SELECT ReportingDate, ModelRegion, Quantity, Amount
FROM dbo.vTimeSeries
WHERE (ModelRegion = N''T1000 Pacific'')
) as [T1000 Pacific] ')
AS t
ON
[All Regions].[Reporting Date] = t.[ReportingDate]
AND
[All Regions].[Avg Qty] = t.[Quantity]
이를 다른 모델에 적용하려면 쿼리 문을 편집하여 필터 조건을 바꾸고 각 결과와 연결된 레이블을 업데이트하기만 하면 됩니다.
예를 들어 'Pacific'을 'North America'로 바꿔 필터 조건 및 열 레이블을 변경하는 경우 일반 모델의 패턴에 따라 북미의 T1000 제품에 대한 예측을 얻을 수 있습니다.
수업의 다음 과제
예측 모델에 대한 예측 비교(중간 데이터 마이닝 자습서)