다음을 통해 공유


시계열 모델에 대한 요구 사항 이해(중간 데이터 마이닝 자습서)

예측 모델에서 사용할 데이터를 준비하는 경우 데이터에 시계열의 단계를 식별하는 데 사용할 수 있는 열이 포함되어 있는지 확인해야 합니다. 해당 열은 열로 Key Time 지정됩니다. 키이므로 열에 고유한 숫자 값이 포함되어야 합니다.

Key Time 열에 적합한 단위를 선택하는 것은 분석에서 중요한 부분입니다. 예를 들어 판매 데이터가 분 단위로 새로 고쳐진 경우를 가정해 보겠습니다. 반드시 시계열의 단위로 분을 사용하는 것은 아닙니다. 일, 주 또는 월 단위로 판매 데이터를 롤업하는 것이 더 의미가 있을 수 있습니다. 사용할 시간 단위가 확실하지 않은 경우 각 집계에 대한 새 데이터 원본 뷰를 만들고 관련 모델을 빌드하여 각 집계 수준에서 다른 추세가 나타나는지 확인할 수 있습니다.

이 자습서의 경우 판매 데이터는 트랜잭션 판매 데이터베이스에서 매일 수집되지만 데이터 마이닝의 경우 데이터를 뷰를 사용하여 월별로 미리 집계되었습니다.

또한 데이터에 가능한 한 적은 간격이 있음을 분석하는 것이 좋습니다. 여러 일련의 데이터를 분석하려는 경우 모든 계열이 동일한 날짜에 시작 및 종료되는 것이 좋습니다. 데이터에 간격이 있지만 간격이 계열의 시작 또는 끝에 없는 경우 MISSING_VALUE_SUBSTITUTION 매개 변수를 사용하여 계열을 채울 수 있습니다. Analysis Services는 또한 누락된 데이터를 수단 또는 상수 사용과 같은 값으로 바꾸기 위한 몇 가지 옵션을 제공합니다.

경고

이전 버전의 데이터 원본 뷰 디자이너에 포함된 피벗 차트 및 피벗 테이블 도구는 더 이상 제공되지 않습니다. Integration Services에 포함된 데이터 프로파일러와 같은 도구를 사용하여 시계열 데이터의 간격을 미리 식별하는 것이 좋습니다.

예측 모델의 시간 키를 식별하려면

  1. SalesByRegion.dsv [디자인] 창에서 vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭한 다음 데이터 탐색을 선택합니다.

    vTimeSeries 테이블 탐색이라는 새 탭이 열립니다.

  2. 테이블 탭에서 TimeIndex 및 보고 날짜 열에 사용되는 데이터를 검토합니다.

    둘 다 고유한 값을 가진 시퀀스이며 둘 다 시계열 키로 사용할 수 있습니다. 그러나 열의 데이터 형식은 다릅니다. Microsoft 시계열 알고리즘에는 데이터 형식이 datetime 필요하지 않으며 값이 고유하고 순서가 지정됩니다. 따라서 두 열 중 하나를 예측 모델의 시간 키로 사용할 수 있습니다.

  3. 데이터 원본 뷰 디자인 화면에서 열, 보고 날짜를 선택하고 속성을 선택합니다. 다음으로 TimeIndex 열을 클릭하고 속성을 선택합니다.

    TimeIndex 필드에는 System.Int32 데이터 형식이 있는 반면 보고 날짜 필드에는 System.DateTime 데이터 형식이 있습니다. 많은 데이터 웨어하우스는 날짜/시간 값을 정수로 변환하고 정수 열을 키로 사용하여 인덱싱 성능을 향상시킵니다. 그러나 이 열을 사용하는 경우 Microsoft 시계열 알고리즘은 201014, 201014 등의 미래 값을 사용하여 예측을 수행합니다. 달력 날짜를 사용하여 판매 데이터 예측을 나타내려고 하므로 보고 날짜 열을 고유한 계열 식별자로 사용합니다.

데이터 원본 뷰에서 키를 설정하려면

  1. SalesByRegion.dsv 창에서 vTimeSeries 테이블을 선택합니다.

  2. 보고 날짜 열을 마우스 오른쪽 단추로 클릭하고 논리 기본 키 설정을 선택합니다.

누락된 데이터 처리(선택 사항)

계열에 누락된 데이터가 있는 경우 모델을 처리하려고 할 때 오류가 발생할 수 있습니다. 누락된 데이터를 해결하는 방법에는 여러 가지가 있습니다.

  • 평균을 계산하거나 이전 값을 사용하여 Analysis Services에서 누락된 값을 채우도록 할 수 있습니다. 마이닝 모델에서 MISSING_VALUE_SUBSTITUTION 매개 변수를 설정하여 이 작업을 수행합니다. 이 매개 변수에 대한 자세한 내용은 Microsoft 시계열 알고리즘 기술 참조를 참조하세요. 기존 마이닝 모델의 매개 변수를 변경하는 방법에 대한 자세한 내용은 알고리즘 매개 변수 보기 또는 변경을 참조하세요.

  • 데이터 원본을 변경하거나 기본 보기를 필터링하여 비정형 계열을 제거하거나 값을 바꿀 수 있습니다. 관계형 데이터 원본에서 이 작업을 수행하거나 사용자 지정 명명된 쿼리 또는 명명된 계산을 만들어 데이터 원본 뷰를 수정할 수 있습니다. 자세한 내용은 다차원 모델의 데이터 원본 뷰를 참조하세요. 이 단원의 이후 작업은 명명된 쿼리와 사용자 지정 계산을 빌드하는 방법의 예를 제공합니다.

이 시나리오의 경우 일부 데이터는 한 시리즈의 시작 부분에서 누락됩니다. 즉, 2007년 7월까지 T1000 제품 라인에 대한 데이터는 없습니다. 그렇지 않으면 모든 계열이 동일한 날짜에 종료되고 누락된 값이 없습니다.

Microsoft 시계열 알고리즘의 요구 사항은 단일 모델에 포함하는 모든 계열에 동일한 점이 있어야 한다는 것입니다. T1000 자전거 모델은 2007년에 도입되었으므로 이 시리즈의 데이터는 다른 자전거 모델보다 나중에 시작되지만 계열은 같은 날짜에 끝납니다. 따라서 데이터를 사용할 수 있습니다.

데이터 원본 뷰 디자이너를 닫려면

  • 탭을 마우스 오른쪽 단추로 클릭하고 vTimeSeries 테이블을 탐색다음 닫기를 선택합니다.

수업의 다음 과제

예측 구조 및 모델 만들기(중간 데이터 마이닝 자습서)

또한 참조하십시오

Microsoft 시계열 알고리즘