다음을 통해 공유


신경망 구조 및 모델 만들기(중간 데이터 마이닝 자습서)

데이터 마이닝 모델을 만들려면 먼저 데이터 마이닝 마법사를 사용하여 새 데이터 원본 뷰를 기반으로 새 마이닝 구조를 만들어야 합니다. 이 작업에서는 마법사를 사용하여 마이닝 구조를 만들고 동시에 Microsoft 신경망 알고리즘을 기반으로 하는 관련 마이닝 모델을 만듭니다.

신경망은 매우 유연하며 입력 및 출력의 여러 조합을 분석할 수 있으므로 최상의 결과를 얻기 위해 데이터를 처리하는 여러 가지 방법을 실험해야 합니다. 예를 들어 특정 비즈니스 요구 사항을 대상으로 서비스 품질에 대한 숫자 대상이 범주화되거나 그룹화되는 방식을 사용자 지정할 수 있습니다. 이렇게 하려면 다른 방식으로 숫자 데이터를 그룹화한 다음 새 열을 사용하는 모델을 만드는 마이닝 구조에 새 열을 추가합니다. 이러한 마이닝 모델을 사용하여 몇 가지 탐색을 수행합니다.

마지막으로, 신경망 모델에서 비즈니스 질문에 가장 큰 영향을 미치는 요인을 알게 되면 예측 및 점수 매기기를 위한 별도의 모델을 빌드합니다. 신경망 모델을 기반으로 하지만 특정 입력을 기반으로 솔루션을 찾는 데 최적화된 Microsoft 로지스틱 회귀 알고리즘을 사용합니다.

단계

기본 마이닝 구조 및 모델 만들기

불연속화를 사용하여 예측 가능한 열을 그룹화하기

열을 복사하고 다른 모델에 대한 불연속화 방법을 변경합니다.

모델을 비교할 수 있도록 예측 가능한 열에 대한 별칭 만들기

모든 모델 처리

기본 콜 센터 구조 만들기

  1. SSDT(SQL Server Data Tools)의 솔루션 탐색기에서 마이닝 구조를 마우스 오른쪽 단추로 클릭하고 새 마이닝 구조를 선택합니다.

  2. 데이터 마이닝 마법사 시작 페이지에서 다음을 클릭합니다.

  3. 정의 방법 선택 페이지에서 기존 관계형 데이터베이스 또는 데이터 웨어하우스에서 선택되어 있는지 확인하고 다음을 클릭합니다.

  4. 데이터 마이닝 구조 만들기 페이지에서 마이닝 모델을 사용하여 마이닝 구조 만들기 옵션이 선택되어 있는지 확인합니다.

  5. 어떤 데이터 마이닝 기술을 사용하시겠습니까?에 대한 드롭다운 목록을 클릭한 다음 Microsoft 신경망을 선택합니다.

    로지스틱 회귀 모델은 신경망을 기반으로 하므로 동일한 구조를 다시 사용하고 새 마이닝 모델을 추가할 수 있습니다.

  6. 다음을 클릭합니다.

    데이터 원본 뷰 선택 페이지가 나타납니다.

  7. 사용 가능한 데이터 원본 뷰에서 Call Center을 선택하고 다음을 클릭합니다.

  8. 테이블 형식 지정 페이지에서 FactCallCenter 테이블 옆에 있는 사례 확인란을 선택합니다. DimDate에 대해 아무 것도 선택하지 마세요. 다음을 클릭합니다.

  9. 학습 데이터 지정 페이지에서 FactCallCenterID 열 옆에 있는 키를 선택합니다.

  10. Predict입력 체크 박스 선택합니다.

  11. 다음 표와 같이 , 입력Predict 확인란을 선택합니다.

    테이블/열(Column) 키/입력/예측
    AutomaticResponses 입력
    문제당 평균 처리 시간 입력/예측
    호출 입력
    날짜 키 사용하지 마세요.
    DayOfWeek 입력
    팩트콜센터ID 열쇠
    문제제기 입력
    LevelOneOperators 입력/예측
    LevelTwoOperators 입력
    주문 입력/예측
    ServiceGrade 입력/예측
    변화 입력
    TotalOperators 사용하지 마세요.
    임금 유형 입력

    여러 예측 가능한 열이 선택되었습니다. 신경망 알고리즘의 장점 중 하나는 가능한 모든 입력 및 출력 특성 조합을 분석할 수 있다는 것입니다. 처리 시간이 기하급수적으로 늘어날 수 있으므로 큰 데이터 집합에 대해서는 이 작업을 수행하지 않을 것입니다.

  12. 열의 콘텐츠 및 데이터 형식 지정 페이지에서 다음 표와 같이 표에 열, 콘텐츠 형식 및 데이터 형식이 포함되어 있는지 확인한 다음 다음을 클릭합니다.

    칼럼 콘텐츠 형식 데이터 형식
    AutomaticResponses 지속적 길다
    이슈당 평균 시간 지속적 길다
    호출 지속적 길다
    DayOfWeek 불연속 문자 메시지
    팩트콜센터ID 열쇠 길다
    제기된 문제 지속적 길다
    LevelOneOperators 지속적 길다
    LevelTwoOperators 지속적 길다
    주문 지속적 길다
    ServiceGrade 지속적 두 배
    변화 불연속 문자 메시지
    급여 유형 불연속 문자 메시지
  13. 테스트 집합 만들기 페이지에서 테스트데이터의 백분율 옵션에 대한 텍스트 상자의 선택을 취소합니다. 다음을 클릭합니다.

  14. 마법사 완료 페이지의 마이닝 구조 이름Call Center를 입력합니다.

  15. 마이닝 모델 이름에 대해 입력Call Center Default NN한 다음 마침을 클릭합니다.

    드릴스루 허용 상자는 신경망 모델을 사용하여 데이터에 드릴스루할 수 없기 때문에 비활성화되었습니다.

  16. 솔루션 탐색기에서 방금 만든 데이터 마이닝 구조의 이름을 마우스 오른쪽 단추로 클릭하고 프로세스를 선택합니다.

불연속화를 사용하여 대상 열을 범주화하기

기본적으로 예측 가능한 숫자 특성이 있는 신경망 모델을 만들 때 Microsoft 신경망 알고리즘은 이 특성을 연속 숫자로 처리합니다. 예를 들어 ServiceGrade 특성은 이론적으로 0.00(모든 호출이 응답됨)에서 1.00(모든 호출자 끊기)까지의 숫자입니다. 이 데이터 집합에서 값에는 다음과 같은 분포가 있습니다.

서비스 등급 값의 분포

따라서 모델을 처리할 때 출력이 예상과 다르게 그룹화될 수 있습니다. 예를 들어 클러스터링을 사용하여 최상의 값 그룹을 식별하는 경우 알고리즘은 ServiceGrade의 값을 0.0748051948 - 0.09716216215와 같은 범위로 나눕니다. 이 그룹화는 수학적으로 정확하지만 이러한 범위는 비즈니스 사용자에게는 의미가 없을 수 있습니다.

이 단계에서는 결과를 보다 직관적으로 만들기 위해 숫자 값을 다르게 그룹화하여 숫자 데이터 열의 복사본을 만듭니다.

불연속화 작동 방법

Analysis Services는 숫자 데이터를 범주화하거나 처리하기 위한 다양한 메서드를 제공합니다. 다음 표에서는 출력 특성 ServiceGrade가 세 가지 방법으로 처리되었을 때의 결과 간 차이점을 보여 줍니다.

  • 연속 숫자로 처리합니다.

  • 알고리즘이 클러스터링을 사용하여 값의 최상의 정렬을 식별하도록 합니다.

  • Equal Areas 방법을 사용하여 숫자를 범주화하도록 지정합니다.

기본 모델(연속)

별칭
없어진 0
0.09875 백이십

클러스터링으로 범주화

별칭
< 0.0748051948 34
0.0748051948 - 0.09716216215 27
0.09716216215 - 0.13297297295 39
0.13297297295 - 0.167499999975 10
>= 0.167499999975 10

동일한 영역으로 범주화

별칭
< 0.07 26
0.07 - 0.00 22
0.09 - 0.11 36
>= 0.12 36

비고

모든 데이터가 처리된 후 모델의 한계 통계 노드에서 이러한 통계를 가져올 수 있습니다. 한계 통계 노드에 대한 자세한 내용은 신경망 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

이 표에서 VALUE 열에는 ServiceGrade의 번호가 처리된 방법이 표시됩니다. SUPPORT 열은 해당 값이 있거나 해당 범위에서 떨어진 사례 수를 보여 줍니다.

  • 연속 번호 사용(기본값)

    기본 메서드를 사용한 경우 알고리즘은 120개의 고유 값에 대한 결과를 계산하며, 그 평균값은 0.09875입니다. 누락된 값의 수도 확인할 수 있습니다.

  • 클러스터링별 Bin

    Microsoft 클러스터링 알고리즘에서 선택적 값 그룹화가 결정되도록 하면 이 알고리즘은 ServiceGrade의 값을 5개 범위로 그룹화합니다. 지원 열에서 볼 수 있듯이 각 범위의 사례 수가 균등하게 분산되지 않습니다.

  • 같음 영역별 Bin

    이 메서드를 선택하면 알고리즘은 값을 동일한 크기의 버킷으로 강제 적용하여 각 범위의 상한과 하한을 변경합니다. 버킷 수를 지정할 수 있지만 모든 버킷에 두 개의 값이 없는 것을 방지하려고 합니다.

범주화 옵션에 대한 자세한 내용은 불연속화 메서드(데이터 마이닝)를 참조하세요.

또는 숫자 값을 사용하는 대신 서비스 등급을 미리 정의된 대상 범위(예: Best(ServiceGrade = 0.05), 허용 가능(0.10 > ServiceGrade <0.05), Poor(ServiceGrade >> = 0.10)로 분류하는 별도의 파생 열을 추가할 수 있습니다.

열 복사본 만들기 및 디스크리타이제이션 방법 변경

대상 특성인 ServiceGrade를 포함하는 마이닝 열의 복사본을 만들고 숫자가 그룹화되는 방식을 변경합니다. 예측 가능한 특성을 포함하여 마이닝 구조에서 열의 복사본을 여러 개 만들 수 있습니다.

이 자습서에서는 이산화의 등가 영역 메서드를 사용하고 4개의 버킷을 지정합니다. 이 메서드에서 생성된 그룹화는 비즈니스 사용자에게 관심 있는 대상 값에 상당히 가깝습니다.

마이닝 구조에서 열의 사용자 지정된 복사본을 만들려면

  1. 솔루션 탐색기에서 방금 만든 마이닝 구조를 두 번 클릭합니다.

  2. 마이닝 구조 탭에서 마이닝 구조 열 추가를 클릭합니다.

  3. 열 선택 대화 상자의 원본 열 목록에서 ServiceGrade를 선택한 다음 확인을 클릭합니다.

    마이닝 구조 열 목록에 새 열이 추가됩니다. 기본적으로 새 마이닝 열은 기존 열과 이름이 같으며 숫자 접두사(예: ServiceGrade 1)가 있습니다. 이 열의 이름을 보다 설명적으로 변경할 수 있습니다.

    또한 불연속화 메서드를 지정합니다.

  4. ServiceGrade 1을 마우스 오른쪽 단추로 클릭하고 속성을 선택합니다.

  5. 속성 창에서 Name 속성을 찾고 이름을 서비스 등급 Binned으로 변경합니다.

  6. 관련된 모든 마이닝 모델 열의 이름을 동일하게 변경할지 여부를 묻는 대화 상자가 나타납니다. 아니요를 클릭합니다.

  7. 속성 창에서 데이터 형식 섹션을 찾아 필요한 경우 확장합니다.

  8. 속성 Content의 값을 Continuous에서 Discretized로 변경합니다.

    이제 다음 속성을 사용할 수 있습니다. 다음 표와 같이 속성 값을 변경합니다.

    재산 기본값 새 값
    DiscretizationMethod Continuous EqualAreas
    DiscretizationBucketCount 값 없음 4

    비고

    기본값 DiscretizationBucketCount 은 실제로 0입니다. 즉, 알고리즘이 최적의 버킷 수를 자동으로 결정합니다. 따라서 이 속성의 값을 기본값으로 다시 설정하려면 0을 입력합니다.

  9. 데이터 마이닝 디자이너에서 마이닝 모델 탭을 클릭합니다.

    마이닝 구조 열의 복사본을 추가하면 사용 플래그가 자동으로 Ignore로 설정됩니다. 일반적으로 마이닝 구조에 열 복사본을 추가하는 경우 원본 열과 함께 분석에 복사본을 사용하지 않거나 알고리즘은 다른 관계를 모호하게 할 수 있는 두 열 간의 강력한 상관 관계를 찾습니다.

마이닝 구조에 새 마이닝 모델 추가

이제 대상 특성에 대한 새 그룹화를 만들었으므로 불연속화된 열을 사용하는 새 마이닝 모델을 추가해야 합니다. 완료되면 CallCenter 마이닝 구조에는 다음 두 가지 마이닝 모델이 있습니다.

  • 마이닝 모델인 콜 센터 기본 NN은 ServiceGrade 값을 연속 범위로 처리합니다.

  • 대상 결과를 위한 새 마이닝 모델 Call Center Binned NN을 만들어 동일한 크기의 4개의 버킷으로 분산된 ServiceGrade 열의 값을 사용합니다.

새로 구분된 열을 기반으로 마이닝 모델을 추가하려면

  1. 솔루션 탐색기에서 방금 만든 마이닝 구조를 마우스 오른쪽 단추로 클릭하고 열기를 선택합니다.

  2. 마이닝 모델 탭을 클릭합니다.

  3. 관련 마이닝 모델 만들기를 클릭합니다.

  4. 새 마이닝 모델 대화 상자에서 모델 이름 필드에 Call Center Binned NN를 입력합니다. 알고리즘 이름 드롭다운 목록에서 Microsoft 신경망을 선택합니다.

  5. 새 마이닝 모델에 포함된 열 목록에서 ServiceGrade를 찾아 사용을 Predict에서 Ignore로 변경합니다.

  6. 마찬가지로 ServiceGrade Binned을 찾아 사용을 Ignore에서 Predict로 변경합니다.

대상 열에 대한 별칭 만들기

일반적으로 예측 가능한 다른 특성을 사용하는 마이닝 모델을 비교할 수 없습니다. 그러나 마이닝 모델 열에 대한 별칭을 만들 수 있습니다. 즉, 원래 열과 이름이 같도록 마이닝 모델 내에서 열의 이름을 ServiceGrade Binned으로 바꿀 수 있습니다. 그런 다음 데이터가 다르게 불연속화되더라도 정확도 차트에서 이러한 두 모델을 직접 비교할 수 있습니다.

마이닝 모델에서 마이닝 구조 열에 대한 별칭을 추가하려면

  1. 마이닝 모델 탭의 구조에서 ServiceGrade Binned을 선택합니다.

    속성 창에는 개체의 속성인 ScalarMiningStructure 열이 표시됩니다.

  2. 마이닝 모델의 'ServiceGrade Binned NN' 열에서 'ServiceGrade Binned' 열과 대응되는 셀을 클릭합니다.

    이제 속성 창에 개체의 속성인 MiningModelColumn이 표시됩니다.

  3. Name 속성을 찾아 값을 ServiceGrade.로 변경합니다.

  4. Description 속성을 찾고 임시 열 별칭을 입력합니다.

    속성 창에는 다음 정보가 포함되어야 합니다.

    재산 가치
    설명 임시 열 별칭
    아이디 ServiceGrade Binned
    모델링 깃발
    이름 서비스 등급
    SourceColumn ID 서비스 등급 1
    사용법 예언하다
  5. 마이닝 모델 탭의 아무 곳이나 클릭합니다.

    표는 열 사용량 옆에 새 임시 열 별칭을 ServiceGrade표시하도록 업데이트됩니다. 마이닝 구조와 두 마이닝 모델이 포함된 그리드는 다음과 같습니다.

    구조 콜센터 기본 NN 콜센터 데이터 분류 NN
    Microsoft 신경망 Microsoft 신경망
    AutomaticResponses 입력 입력
    문제당 평균 처리 시간 예언하다 예언하다
    호출 입력 입력
    DayOfWeek 입력 입력
    팩트콜센터ID 열쇠 열쇠
    제기된 문제들 입력 입력
    LevelOneOperators 입력 입력
    LevelTwoOperators 입력 입력
    주문 입력 입력
    서비스 등급 분류됨 무시 Predict(ServiceGrade)
    서비스등급 예언하다 무시
    변화 입력 입력
    전체 연산자 입력 입력
    임금 유형 입력 입력

모든 모델 처리

마지막으로, 만든 모델을 쉽게 비교할 수 있도록 기본 모델과 범주화된 모델 모두에 대한 시드 매개 변수를 설정합니다. 시드 값을 설정하면 각 모델이 동일한 지점에서 데이터 처리를 시작합니다.

비고

시드 매개 변수의 숫자 값을 지정하지 않으면 SQL Server Analysis Services는 모델 이름에 따라 시드를 생성합니다. 모델에는 항상 이름이 다르기 때문에 데이터를 동일한 순서로 처리하도록 시드 값을 설정해야 합니다.

초기값을 지정하고 모델을 처리하려면

  1. 마이닝 모델 탭에서 콜 센터 - LR이라는 모델의 열을 마우스 오른쪽 단추로 클릭하고 알고리즘 매개 변수 설정을 선택합니다.

  2. HOLDOUT_SEED 매개 변수의 행에서 Value 아래의 빈 셀을 클릭하고 입력 1합니다. OK를 클릭합니다. 구조체와 연결된 각 모델에 대해 이 단계를 반복합니다.

    비고

    시드 값은 중요하지 않으며, 관련된 모든 모델에 동일한 시드를 사용하는 것이 중요합니다.

  3. 마이닝 모델 메뉴에서 프로세스 마이닝 구조 및 모든 모델을 선택합니다. 예(Yes)를 클릭하여 업데이트된 데이터 마이닝 프로젝트를 서버에 배포합니다.

  4. 프로세스 마이닝 모델 대화 상자에서 실행을 클릭합니다.

  5. 기를 클릭하여 프로세스 진행률 대화 상자를 닫은 다음 프로세스 마이닝 모델 대화 상자에서 닫기를 다시 클릭합니다.

이제 두 개의 관련 마이닝 모델을 만들었으므로 데이터를 탐색하여 데이터에서 관계를 검색합니다.

수업의 다음 과제

콜 센터 모델 탐색(중간 데이터 마이닝 자습서)

또한 참조하십시오

마이닝 구조체(Analysis Services - 데이터 마이닝)