다음을 통해 공유


콜 센터 모델 탐색(중간 데이터 마이닝 자습서)

이제 예비 모델을 빌드했으므로 SSDT(SQL Server Data Tools)에 제공된 다음 도구를 사용하여 데이터에 대해 자세히 알아볼 수 있습니다.

  • Microsoft 신경망 뷰어: 이 뷰어는 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 사용할 수 있으며 데이터의 상호 작용을 실험하는 데 도움이 되도록 설계되었습니다.

  • Microsoft 일반 콘텐츠 트리 뷰어: 이 표준 뷰어는 모델을 생성할 때 알고리즘에서 검색한 패턴 및 통계에 대해 자세히 설명합니다.

Microsoft 신경망 뷰어

뷰어에는 입력, 출력 및 변수의 세 개의 창이 있습니다.

출력 창을 사용하여 예측 가능한 특성 또는 종속 변수에 대해 다른 값을 선택할 수 있습니다. 모델에 예측 가능한 특성이 여러 개 포함된 경우 출력 특성 목록에서 특성을 선택할 수 있습니다.

변수 창은 기여 특성 또는 변수 측면에서 선택한 두 가지 결과를 비교합니다. 색이 지정된 막대는 변수가 대상 결과에 얼마나 많은 영향을 주는지를 시각적으로 나타냅니다. 변수의 리프트 점수를 볼 수도 있습니다. 리프트 점수는 사용하고 있는 마이닝 모델 유형에 따라 다르게 계산되지만 일반적으로 예측을 위해 이 특성을 사용할 때 모델의 향상률을 보여 줍니다.

입력 창을 사용하면 모델에 영향 요인을 추가하여 다양한 시나리오를 사용해 볼 수 있습니다.

출력 창 사용

이 초기 모델에서는 다양한 요인이 서비스 등급에 어떤 영향을 미치는지 알아보고자 합니다. 이렇게 하려면 출력 특성 목록에서 서비스 등급을 선택한 다음, 값 1및 값 2의 드롭다운 목록에서 범위를 선택하여 다양한 서비스 수준을 비교할 수 있습니다.

최저 및 최고 서비스 성적을 비교하려면
  1. 값 1의 경우 가장 낮은 값을 가진 범위를 선택합니다. 예를 들어 0-0-0.7 범위는 가장 낮은 중단 속도를 나타내므로 서비스 수준이 가장 낮습니다.

    참고 항목

    이 범위의 정확한 값은 모델을 구성한 방법에 따라 달라질 수 있습니다.

  2. 값 2의 경우 값이 가장 높은 범위를 선택합니다. 예를 들어 값 >이 =0.12인 범위는 중단률이 가장 높으므로 최악의 서비스 등급을 나타냅니다. 즉, 이 교대 근무 중에 전화를 걸었던 고객의 12%가 담당자에게 말하기 전에 전화를 끊었습니다.

    변수 창의 내용은 결과 값에 영향을 주는 특성을 비교하도록 업데이트됩니다. 따라서 왼쪽 열에서는 가장 높은 서비스 등급과 연결된 특성을 보여 주고 오른쪽 열에서는 가장 낮은 서비스 등급과 연결된 특성을 보여 줍니다.

변수 창 사용

이 모델에서는 중요한 요소로 나타납니다 Average Time Per Issue . 이 변수는 호출 유형에 관계없이 호출에 응답하는 데 걸리는 평균 시간을 나타냅니다.

특성에 대한 확률 및 리프트 점수를 보고 복사하려면
  1. 변수 창에서 첫 번째 행의 색이 지정된 막대 위로 마우스를 일시 중지합니다.

    이 색 표시줄은 서비스 등급에 얼마나 큰 Average Time Per Issue 영향을 주는지 보여줍니다. 도구 설명은 변수와 대상 결과의 각 조합에 대한 총 점수, 확률 및 리프트 점수를 보여 줍니다.

  2. 변수 창에서 색이 지정된 막대를 마우스 오른쪽 단추로 클릭하고 복사를 선택합니다.

  3. Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭하고 붙여넣기를 선택합니다.

    보고서가 HTML 테이블로 붙여 넣어지고 각 막대에 대한 점수만 표시합니다.

  4. 다른 Excel 워크시트에서 셀을 마우스 오른쪽 단추로 클릭하고 [특수 붙여넣기]를 선택합니다.

    보고서는 텍스트 형식으로 붙여넣고 다음 섹션에 설명된 관련 통계를 포함합니다.

입력 창 사용

시프트 또는 연산자 수와 같은 특정 요소의 효과를 살펴보는 데 관심이 있다고 가정해 보겠습니다. 입력 창을 사용하여 특정 변수를 선택할 수 있으며 변수 창은 지정된 변수가 지정된 경우 이전에 선택한 두 그룹을 비교하도록 자동으로 업데이트됩니다.

입력 특성을 변경하여 서비스 등급에 미치는 영향을 검토하려면
  1. 입력 창에서 특성에 대해 Shift를 선택합니다.

  2. 으로 AM을 선택합니다.

    변수 창이 업데이트되어 교대 근무가 AM일 때 모델에 미치는 영향을 표시합니다. 다른 모든 선택은 동일하게 유지됩니다. 여전히 가장 낮고 높은 서비스 등급을 비교하고 있습니다.

  3. 으로 PM1을 선택합니다.

    변수 창은 교대 근무가 변경되면 모델에 미치는 영향을 표시하도록 업데이트됩니다.

  4. 입력 창에서 특성 아래의 다음 빈 행을 클릭하고 호출을 선택합니다. 값의 경우 가장 많은 호출 수를 나타내는 범위를 선택합니다.

    새 입력 조건이 목록에 추가됩니다. 변수 창은 호출 볼륨이 가장 높은 경우 특정 시프트에 대한 모델에 미치는 영향을 표시하도록 업데이트됩니다.

  5. 계속 Shift 및 Calls에 대한 값을 변경하여 교대조, 호출량 및 서비스 등급 간의 흥미로운 상관 관계를 발견합니다.

    참고 항목

    다른 특성을 사용할 수 있도록 입력 창을 지우려면 뷰어 콘텐츠 새로 고침을 클릭합니다.

뷰어에 제공된 통계 해석

오래 걸리는 대기 시간은 높은 중단율을 예측하는 강력한 요인으로, 낮은 서비스 등급을 의미합니다. 이것은 명백한 결론을 보일 수 있습니다; 그러나 마이닝 모델은 이러한 추세를 해석하는 데 도움이 되는 몇 가지 추가 통계 데이터를 제공합니다.

  • 점수: 결과를 구분하기 위해 이 변수의 전반적인 중요도를 나타내는 값입니다. 점수가 높을수록 변수가 결과에 미치는 영향이 강합니다.

  • 값 1의 확률: 이 결과에 대한 이 값의 확률을 나타내는 백분율입니다.

  • 값 2의 확률: 이 결과에 대한 이 값의 확률을 나타내는 백분율입니다.

  • 값 1 의 리프트 및 값 2의 리프트: 값 1 및 값 2 결과를 예측하기 위해 이 특정 변수를 사용할 때의 영향을 나타내는 점수입니다. 점수가 높을수록 변수가 결과를 더 잘 예측할 수 있습니다.

다음 표에는 가장 많은 영향을 주는 요인에 대한 일부 값 예가 포함되어 있습니다. 예를 들면 다음과 같습니다. 값 1 의 확률은 60.6%이고 값 2 의 확률은 8.30%입니다. 즉, 문제당 평균 시간이 44-70분 범위일 때 케이스의 60.6%가 가장 높은 서비스 등급(값 1)으로 교대에 있었고, 사례의 8.30%는 더 나쁜 서비스 등급(값 2)으로 시프트 중이었습니다.

이 정보를 사용하여 몇 가지 결론을 내릴 수 있습니다. 보다 짧은 호출 응답 시간(44-70 범위)이 보다 높은 서비스 등급(0.00-0.07 범위)에 더 많은 영향을 끼칩니다. 점수(92.35)는 이 변수가 매우 중요하다는 것을 알려줍니다.

그러나 기여 요인 목록을 살펴보면 더 미묘하고 해석하기 어려운 효과가 있는 다른 요인이 표시됩니다. 예를 들어 교대조는 서비스에 영향을 주는 것처럼 보이지만 리프트 점수와 상대 확률은 교대 근무가 주요 요인이 아님을 나타냅니다.

attribute < 호의 0.07 >호의 = 0.12
문제당 평균 시간 89.087 - 120.000 점수: 100

Value1 확률: 4.45%

값2 확률: 51.94%

Value1의 리프트: 0.19

값 2의 리프트: 1.94
문제당 평균 시간 44.000 - 70.597 점수: 92.35

Value1 확률: 60.06%

값2 확률: 8.30%

값 1의 리프트: 2.61

값 2의 리프트: 0.31

맨 위로 이동

Microsoft 일반 콘텐츠 트리 뷰어

이 뷰어는 모델을 처리할 때 알고리즘에서 만든 더 자세한 정보를 보는 데 사용할 수 있습니다. MicrosoftGeneric 콘텐츠 트리 뷰어는 마이닝 모델을 일련의 노드로 나타내며, 각 노드는 학습 데이터에 대한 학습된 지식을 나타냅니다. 이 뷰어는 모든 모델에서 사용할 수 있지만 노드의 내용은 모델 유형에 따라 다릅니다.

신경망 모델 또는 로지스틱 회귀 모델의 경우 특히 유용할 marginal statistics node 수 있습니다. 이 노드는 데이터의 값 분포에 대한 파생 통계를 포함합니다. 이 정보는 많은 T-SQL 쿼리를 작성하지 않고도 데이터 요약을 얻으려면 유용할 수 있습니다. 이전 항목의 범주화 값 차트는 한계 통계 노드에서 파생되었습니다.

마이닝 모델에서 데이터 값의 요약을 가져오려면

  1. 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 마이닝 모델 이름을< 선택합니다>.

  2. 뷰어 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.

    마이닝 모델의 보기가 새로 고쳐져 왼쪽 창에 노드 계층 구조가 표시되고 오른쪽 창에 HTML 테이블이 표시됩니다.

  3. 노드 캡션 창에서 이름이 100000000000000000인 노드를 클릭합니다.

    모든 모델의 최상위 노드는 항상 모델 루트 노드입니다. 신경망 또는 로지스틱 회귀 모델에서 해당 노드 바로 아래의 노드는 한계 통계 노드입니다.

  4. 노드 세부 정보 창에서 행을 찾을 때까지 아래로 스크롤하여 NODE_DISTRIBUTION.

  5. NODE_DISTRIBUTION 테이블을 아래로 스크롤하여 신경망 알고리즘에서 계산한 값의 분포를 확인합니다.

보고서에서 이 데이터를 사용하려면 특정 행에 대한 정보를 선택하고 복사하거나 다음 DMX(데이터 마이닝 확장) 쿼리를 사용하여 노드의 전체 내용을 추출할 수 있습니다.

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'  

NODE_DISTRIBUTION 테이블의 노드 계층 구조와 세부 정보를 사용하여 신경망의 개별 경로를 트래버스하고 숨겨진 계층에서 통계를 볼 수도 있습니다. 자세한 내용은 신경망 모델 쿼리 예제를 참조 하세요.

맨 위로 이동

단원의 다음 태스크

콜 센터 구조에 로지스틱 회귀 모델 추가(중간 데이터 마이닝 자습서)

참고 항목

신경망 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)
신경망 모델 쿼리 예제
Microsoft 신경망 알고리즘 기술 참조
마이닝 모델에서 열의 불연속화 변경