다음을 통해 공유


예측 모델 사용자 지정 및 처리(중간 데이터 마이닝 자습서)

Microsoft 시계열 알고리즘은 모델을 만드는 방법과 시간 데이터를 분석하는 방법에 영향을 주는 매개 변수를 제공합니다. 이러한 속성을 변경하면 마이닝 모델이 예측을 만드는 방식에 큰 영향을 줄 수 있습니다.

자습서의 이 태스크에서는 다음 작업을 수행하여 모델을 수정합니다.

  1. PERIODICITY_HINT 매개 변수에 대한 새 값을 추가하여 모델이 기간을 처리하는 방식을 사용자 지정합니다.

  2. Microsoft 시계열 알고리즘의 다른 두 가지 중요한 매개 변수인 예측에 사용되는 방법을 제어할 수 있는 FORECAST_METHOD 장기 및 단기 예측의 혼합을 사용자 지정할 수 있는 PREDICTION_SMOOTHING 대해 알아봅니다.

  3. 필요에 따라 누락된 값을 변환하는 방법을 알고리즘에 알릴 수 있습니다.

  4. 모든 변경이 완료되면 모델을 배포하고 처리합니다.

시계열 매개 변수 설정

주기 힌트

PERIODICITY_HINT 매개 변수는 데이터에 표시할 것으로 예상되는 추가 기간에 대한 정보를 알고리즘에 제공합니다. 기본적으로 시계열 모델은 데이터의 패턴을 자동으로 검색하려고 합니다. 그러나 예상 시간 주기를 이미 알고 있는 경우 주기 힌트를 제공하면 모델의 정확도가 향상될 수 있습니다. 그러나 잘못된 주기 힌트를 제공하면 정확도가 낮아질 수 있습니다. 따라서 어떤 값을 사용해야 할지 잘 모르는 경우 기본값을 사용하는 것이 가장 좋습니다.

예를 들어 이 모델에 사용되는 뷰는 Adventure Works DW 다차원 2012의 판매 데이터를 매월 집계합니다. 따라서 모델에서 사용하는 각 시간 조각은 한 달을 나타내며 모든 예측도 월 단위로 표시됩니다. 1년에 12개월이 있고 매년 판매 패턴이 더 많거나 적게 반복될 것으로 예상되므로 PERIODICITY_HINT 매개 변수를 12설정하여 12개의 시간 조각(월)이 하나의 전체 판매 주기를 구성함을 나타냅니다.

예측 방법

FORECAST_METHOD 매개 변수는 시계열 알고리즘이 단기 또는 장기 예측에 최적화되어 있는지 여부를 제어합니다. 기본적으로 FORECAST_METHOD 매개 변수는 MIXED로 설정됩니다. 즉, 단기 및 장기 예측 모두에 좋은 결과를 제공하기 위해 서로 다른 두 알고리즘이 혼합되고 균형이 조정됩니다.

그러나 특정 알고리즘을 사용하려는 경우 값을 ARIMA 또는 ARTXP로 변경할 수 있습니다.

Long-Term와 Short-Term 예측 비교

PREDICTION_SMOOTHING 매개 변수를 사용하여 장기 및 단기 예측을 결합하는 방법을 사용자 지정할 수도 있습니다. 기본적으로 이 매개 변수는 0.5로 설정되며 일반적으로 전체 정확도에 가장 적합한 균형을 제공합니다.

알고리즘 매개 변수를 변경하려면

  1. 마이닝 모델 탭에서 예측을 마우스 오른쪽 단추로 클릭하고 알고리즘 매개 변수 설정을 선택합니다.

  2. PERIODICITY_HINT 알고리즘 매개 변수 대화 상자의 행에서 열을 클릭한 다음 중괄호를 포함하여 입력{12}합니다.

    기본적으로 알고리즘은 값을 {1}추가합니다.

  3. FORECAST_METHOD 행에서 텍스트 상자가 비어 있거나 MIXED로 설정되어 있는지 확인합니다. 다른 값을 입력한 경우 매개 변수를 다시 기본값으로 변경하려면 입력 MIXED 합니다.

  4. PREDICTION_SMOOTHING 행에서 텍스트 상자가 비어 있거나 0.5로 설정되어 있는지 확인합니다. 다른 값을 입력한 경우 값을 클릭하고 입력 0.5 을 클릭하여 매개 변수를 다시 기본값으로 변경합니다.

    비고

    PREDICTION_SMOOTHING 매개 변수는 SQL Server Enterprise에서만 사용할 수 있습니다. 따라서 SQL Server Standard에서 PREDICTION_SMOOTHING 매개 변수의 값을 보거나 변경할 수 없습니다. 그러나 기본 동작은 알고리즘을 모두 사용하고 가중치를 동일하게 지정하는 것입니다.

  5. OK를 클릭합니다.

누락된 데이터 처리(선택 사항)

대부분의 경우 판매 데이터에 null로 채워진 간격이 있거나 저장소가 보고 기한을 충족하지 못해 계열 끝에 빈 셀이 남을 수 있습니다. 이러한 시나리오에서 Analysis Services는 다음 오류를 발생시키고 모델을 처리하지 않습니다.

"오류(데이터 마이닝): 마이닝 모델의 계열 <이름, <모델 이름으로>> 시작하는 타임스탬프를 동기화하지 않습니다. 모든 시계열은 동시에 종료되어야 하며 임의로 누락된 데이터 요소를 가질 수 없습니다. MISSING_VALUE_SUBSTITUTION 매개 변수를 이전 또는 숫자 상수로 설정하면 가능한 경우 누락된 데이터 요소가 자동으로 패치됩니다."

이 오류를 방지하려면 Analysis Services에서 다음 방법 중 하나를 사용하여 간격을 채울 새 값을 자동으로 제공하도록 지정할 수 있습니다.

  • 평균 값을 사용합니다. 평균은 동일한 데이터 계열의 모든 유효한 값을 사용하여 계산됩니다.

  • 이전 값을 사용합니다. 이전 값을 누락된 여러 셀로 대체할 수 있지만 시작 값을 채울 수는 없습니다.

  • 제공하는 상수 값을 사용합니다.

간격을 평균 값으로 채우도록 지정하려면

  1. 마이닝 모델 탭에서 예측 열을 마우스 오른쪽 단추 클릭하고 알고리즘 매개 변수 설정을 선택합니다.

  2. 알고리즘 매개 변수 대화 상자의 MISSING_VALUE_SUBSTITUTION 행에서 열을 클릭하고 입력Mean합니다.

모델 빌드

모델을 사용하려면 모델을 서버에 배포하고 알고리즘을 통해 학습 데이터를 실행하여 모델을 처리해야 합니다.

예측 모델을 처리하려면

  1. SQL Server Data Tools의 마이닝 모델 메뉴에서 프로세스 마이닝 구조 및 모든 모델을 선택합니다.

  2. 프로젝트를 빌드하고 배포할지 여부를 묻는 경고에서 예를 클릭합니다.

  3. 프로세스 마이닝 구조 - 예측 대화 상자에서 실행을 클릭합니다.

    프로세스 진행률 대화 상자가 열리면 모델 처리에 대한 정보가 표시됩니다. 모델 처리에는 다소 시간이 걸릴 수 있습니다.

  4. 처리가 완료되면 닫기를 클릭하여 프로세스 진행률 대화 상자를 종료합니다.

  5. 다시 닫기를 클릭하여 프로세스 마이닝 구조 - 예측 대화 상자를 종료합니다.

수업의 다음 과제

예측 모델 탐색(중간 데이터 마이닝 자습서)

또한 참조하십시오

Microsoft 시계열 알고리즘 기술 참조
Microsoft 시계열 알고리즘
처리 요구 사항 및 고려 사항(데이터 마이닝)