다음을 통해 공유


시퀀스 클러스터링 모델 탐색(중간 데이터 마이닝 자습서)

이제 지역 모델을 사용하여 시퀀스 클러스터링을 빌드했으므로 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 Microsoft 시퀀스 클러스터링 뷰어를 사용하여 탐색할 수 있습니다. Microsoft 시퀀스 클러스터 뷰어에는 클러스터 다이어그램, 클러스터 프로필, 클러스터 특성,ClusterDiscrimination상태 전환의 다섯 가지 탭이 있습니다. 이 뷰어를 사용하는 방법에 대한 자세한 내용은 Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델 찾아보기를 참조하세요.

클러스터 다이어그램 탭

클러스터 다이어그램 탭은 알고리즘이 데이터베이스에서 검색한 클러스터를 그래픽으로 표시합니다. 다이어그램의 레이아웃은 비슷한 클러스터가 함께 그룹화된 클러스터의 관계를 나타냅니다. 기본적으로 각 노드의 음영은 클러스터에 있는 모든 사례의 밀도를 나타냅니다. 노드의 음영이 어둡게 될수록 더 많은 사례가 포함됩니다. 특성 및 상태에 대한 각 클러스터 내에서 지원을 나타내도록 노드 음영의 의미를 변경할 수 있습니다.

대상 클러스터를 보다 쉽게 식별하고 작업할 수 있도록 클러스터 이름을 바꿀 수도 있습니다. 이 자습서에서는 태평양 지역에서 고객의 비율이 가장 높은 클러스터와 전체 사례가 가장 많은 클러스터의 이름을 바꿉니다.

비고

데이터 및 모델 매개 변수에 따라 모델을 다시 처리할 때 특정 클러스터에 할당된 사례가 변경될 수 있습니다. 또한 클러스터 이름을 바꾸면 마이닝 모델을 다시 처리할 때 이름이 손실됩니다.

클러스터 강조 표시에 사용되는 특성을 변경하려면

  1. 음영 변수 목록에서 모델을 선택합니다.

  2. 사이클링 캡상태 목록에서 선택합니다.

    다이어그램은 각 클러스터에서 선택한 제품의 농도를 표시하도록 업데이트됩니다. 가장 어두운 음영이 있는 클러스터에는 사이클링 캡의 밀도가 가장 높습니다. 모든 입력 열의 상태를 사용하도록 음영 변수를 변경할 수 있습니다.

  3. 음영 변수 목록에서 인구를 선택합니다.

    변수를 인구로 변경하면 다이어그램이 업데이트되어 클러스터를 크기로 비교합니다. 음영이 가장 어두운 클러스터는 다른 클러스터보다 더 많은 사례를 포함합니다.

모델의 노드 이름을 바꾸려면

  1. 음영 변수를변경하고 상태를 Pacific으로 설정합니다.

  2. 그래프에서 가장 어두운 노드를 강조 표시합니다.

  3. 이 클러스터를 마우스 오른쪽 단추로 클릭하고 클러스터 이름을 바꿉니다.

  4. Pacific Cluster라는 이름을 입력합니다.

  5. 음영 변수의 값을 인구로 변경합니다.

  6. 업데이트된 그래프에서 가장 큰 클러스터여야 하는 가장 어두운 클러스터를 찾습니다. 음영에서 가장 큰 클러스터를 알 수 없는 경우 각 클러스터 위로 마우스를 일시 중지하고 도구 설명을 본 다음 가장 많은 사례가 포함된 클러스터를 선택합니다.

  7. 이 클러스터를 마우스 오른쪽 단추로 클릭하고 클러스터 이름을 바꿉니다. 새 이름을 Largest Cluster입력합니다.

클러스터를 나타내는 노드에서 드릴스루하여 각 클러스터에 있는 사례의 세부 정보를 볼 수 있습니다. 이는 고객에게 전자 메일을 보내는 등 분석 결과에 대한 조치를 취하려는 경우에 유용할 수 있습니다. 구조에 포함되었지만 모델에서 사용하지 않은 사례의 다른 특성(예: Region 및 IncomeGroup)을 찾아볼 수도 있습니다. 마이닝 모델에서 기본 사례로 드릴스루하는 방법에 대한 자세한 내용은 드릴스루 쿼리(데이터 마이닝)를 참조하세요.

클러스터 다이어그램에서 세부 정보로 상세 조회하려면

  1. Pacific Cluster을 마우스 오른쪽 버튼으로 클릭하고 드릴스루를 선택한 후, 모델 및 구조 열을 선택합니다.

    드릴스루 대화 상자가 열립니다. 모델에서 사용되지 않지만 쿼리에 사용할 수 있는 열에는 구조체 접두사로 지정됩니다.

    이 클러스터에는 주로 태평양 지역의 고객이 포함되어 있으며, 다른 지역의 고객은 몇 명뿐이라는 것을 알 수 있습니다.

  2. 중첩된 v Assoc Seq Line Items 열에 있는 더하기 기호를 클릭하여 특정 고객 주문의 항목 순서를 확인하세요.

  3. 세부 탐색 대화 상자를 닫기.

    비고

    재생 단추를 사용하면 데이터를 다시 쿼리할 수 있습니다. 그러나 다른 프로세스에 의해 모델이 백그라운드에서 동적으로 업데이트되지 않는 한 다시 쿼리는 표시되는 데이터를 변경하지 않습니다.

맨 위로 돌아가기

클러스터 프로필 탭

클러스터 프로필 탭에는 각 클러스터에 있는 시퀀스가 표시됩니다. 클러스터는 상태 열의 오른쪽에 있는 개별 열에 나열됩니다.

뷰어에서 모델 행은 클러스터에 있는 항목의 전체 분포를 설명하고 Model.samples 행에는 항목의 시퀀스가 포함됩니다. Model.samples 행의 각 셀에 있는 색 시퀀스의 각 줄은 클러스터에서 임의로 선택한 사용자의 동작을 나타냅니다.

개별 시퀀스 히스토그램의 각 색은 제품 모델을 나타냅니다. 마이닝 레전드 기능은 색상 코드와 제품 모델 이름을 활용하여 제품의 시퀀스를 표시합니다. 지역 또는 소득 그룹과 같은 클러스터링 모델에 다른 열을 추가한 경우 뷰어에는 각 클러스터 내에서 이러한 값의 분포를 보여 주는 각 열에 대한 추가 행이 포함됩니다.

클러스터에서 가장 일반적인 시퀀스를 보려면

  1. 클러스터 Largest Cluster열에서 모델 행을 마우스 오른쪽 단추로 클릭하고 범례 표시를 선택합니다.

    열에는 시퀀스에서 찾은 항목의 빈도를 나타내는 음영 처리된 막대가 포함되어 있습니다. 각 항목은 다른 색으로 표시됩니다. 의미 열에는 각 색의 제품 모델 이름이 나열됩니다. 배포 열은 이 항목이 시퀀스에 포함된 사례의 백분율을 알려줍니다.

  2. 마이닝 레전드를 닫습니다.

  3. 열에서 제목이 PopulationModel.samples 행을 오른쪽 클릭한 다음, 범례 표시를 선택합니다.

  4. 전체 모델의 시퀀스 목록 검사.

    마이닝 범례는 가장 일반적인 시퀀스를 먼저 나열하므로 Mountain Tire Tube가 여러 시퀀스의 첫 번째 항목임을 알 수 있습니다. 즉, 고객이 먼저 쇼핑 바구니에 마운틴 타이어 튜브를 넣을 가능성이 매우 높다는 것을 의미합니다.

클러스터 뷰어에서 사례로 탐색하려면

  1. 특성의 행 Region 을 찾을 때까지 특성 창에서 아래로 스크롤합니다.

    이 행에는 모델의 각 클러스터에 대한 히스토그램과 Population에 대한 히스토그램이 하나 더 포함되어 있습니다. 즉, 모델에 사용된 전체 사례 집합을 의미합니다. 히스토그램은 색이 서로 다른 막대로, 각 색이 특성을 나타내고 해당 특성의 색이 지정된 구역의 크기는 해당 특성이 있는 사례의 백분율을 나타냅니다.

  2. 이름을 바꾼 Pacific ClusterLargest Cluster 클러스터의 히스토그램을 비교하세요. 각 클러스터는 다른 열에 나타납니다.

    둘 다 단색처럼 보이지만 색은 다릅니다.

  3. Region 행에서 색이 지정된 히스토그램 위에 마우스를 올려놓습니다. Largest Cluster

    도구 설명은 각 지역의 실제 사례 비율을 표시하는 값을 표시합니다.

  4. Region행의 색 히스토그램을 마우스 오른쪽 버튼으로 클릭하고, 세부 보기를 선택한 다음, 모델 열만을 선택합니다.

  5. 스크롤 막대를 이동하여 이 클러스터의 모든 고객을 검토합니다.

    분석 결과, 클러스터에는 주로 태평양 지역의 주문이 포함되어 있지만, 북미와 유럽 지역의 일부 주문도 포함되어 있음을 알 수 있습니다.

  6. 드릴 스루 대화 상자를 닫으세요.

맨 위로 돌아가기

클러스터 특성 탭

클러스터 특성 탭에는 선택한 클러스터에 대한 특성 값의 중요도를 시각적으로 나타내는 막대가 표시되어 클러스터의 상태 간 전환이 요약되어 있습니다. 변수 열은 선택한 클러스터 또는 모집단에 중요한 모델(특정 값 또는 전환이라고도 하는 값 간의 관계)을 알려줍니다. 열은 값 또는 전환에 대한 자세한 정보를 제공하며 Probability 열은 이 특성 또는 전환의 가중치를 시각적으로 나타냅니다.

클러스터의 중요한 특성을 보려면

  1. 클러스터 드롭다운 목록에서 .를 선택합니다Pacific Cluster.

    이름이 바뀐 클러스터의 특성을 표시하도록 목록이 업데이트됩니다 Pacific Cluster. 이 클러스터에서 가장 중요한 특징은 .입니다 Region.

  2. Region행의 음영 처리된 막대 위에 마우스를 올려놓으세요.

    값이 Pacific일 확률은 매우 높습니다. 이러한 값을 해석하는 방법에 대한 자세한 내용은 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조를 참조하세요.

  3. 첫 번째 전환 행을 찾을 때까지 클러스터의 특성 목록을 살펴봅니다.

  4. 전환 행에는 변수 열의 텍스트 전환과 열의 순차적 특성 값 조합이 포함됩니다. 시퀀스에는 시작점과 누락된 값이 포함될 수도 있습니다.

    예를 들어 전환에 [Start] -> Road Tire Tube 값이 있다고 가정합니다. 즉, 이 클러스터의 고객은 자주 로드 타이어 튜브를 가장 먼저 장바구니에 담습니다. 이는 제품이 고객이 먼저 찾는 인기 있는 항목임을 의미하거나 구매 사이트에서 제품을 쉽게 찾을 수 있음을 나타낼 수 있습니다.

  5. [시작]이 없거나 누락된 첫 번째 전환을 찾을 때까지 목록을 스크롤합니다.

    예를 들어 전환 과정에서 투어링 타이어, 투어링 타이어 튜브를 발견했다고 가정해 보세요. 즉, 이 클러스터의 고객은 정확히 이 순서로 이러한 항목을 함께 구매하는 경우가 많습니다.

  6. 이 전환을 위해 음영 처리된 막대 위로 마우스를 일시 중지합니다.

    이 전환의 확률은 백분율로 표시됩니다.

  7. 클러스터 드롭다운 목록에서 인구 (전체)를 선택합니다.

    특성 목록은 모델을 만드는 데 사용되는 모든 주문의 특성을 표시하도록 업데이트됩니다. 이 마이닝 모델에서 클러스터를 구분하는 데 가장 중요한 특징은 Region북아메리카 값을 갖는 것입니다.

이러한 작업을 검토하면 두 가지가 실현됩니다. 첫 번째는 의미 있는 수의 조합을 얻기 위해 많은 데이터가 필요하다는 것입니다. 예를 들어 확률이 가장 높은 시퀀스는 [시작] 또는 누락 상태를 포함할 가능성이 높습니다.

두 번째는 특성 Region에 강력한 클러스터링 효과가 있으므로 시퀀스 그룹을 보기가 더 어려워진다는 것입니다. 따라서 시퀀스만 사용하고 지역 또는 소득에 대한 열을 포함하지 않는 다른 모델을 만들기로 결정합니다.

맨 위로 돌아가기

클러스터 차별 탭

클러스터 구분 탭을 사용하면 두 클러스터를 비교하여 특정 클러스터를 다른 클러스터와 구분하는 특성을 확인할 수 있습니다. 탭에는 변수, , 클러스터 1클러스터 2의 네 개의 열이 있습니다. 사용할 수 있는 클러스터를 클러스터 1클러스터 2로 선택할 수 있습니다.

변수 열은 열 이름 또는 열 이름과 단어 전환의 조합일 수 있는 특성의 이름을 알려줍니다. 열에는 특성 또는 전환의 정확한 값이 표시됩니다. 클러스터 1클러스터 2의 열에 있는 음영 막대는 비교하실 클러스터 내에서 속성의 강도를 나타냅니다. 막대가 길수록 클러스터에 해당 특성이 포함된 사례가 더 많이 포함될 수 있습니다.

클러스터 차별 탭을 사용하여 두 클러스터를 비교하려면

  1. 클러스터 차별 탭의 클러스터 1에서 .를 선택합니다Pacific Cluster.

    기본적으로 클러스터 2 에 대한 선택은 Pacific Cluster의 보수로 변경됩니다.

    다른 모든 경우와 Pacific Cluster 구별되는 상위 특성은 지역입니다. 지역은 클러스터링에 대한 강력한 특성이므로 다른 특성을 가릴 수 없습니다. 이 효과를 방지하려면 여러 개의 작은 클러스터를 서로 비교해 보세요. 이렇게 하면 특성 목록이 변경되고 모델 간에 더 많은 전환이 포함될 수 있습니다.

  2. 전환 행을 찾아 음영 처리된 막대 위로 마우스를 일시 중지합니다.

    열의 항목에는 상태와 전환이 모두 포함될 수 있습니다. 각 항목의 음영은 차별 점수를 나타냅니다. 다양한 점수의 의미에 대한 자세한 내용은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

맨 위로 돌아가기

상태 전환 탭

상태 전환 탭에서 클러스터를 선택하고 해당 상태 전환을 탐색할 수 있습니다. 클러스터 드롭다운 목록에서 인구(모두)를 선택하면 다이어그램에 전체 마이닝 모델의 상태 분포를 보여줍니다.

그래프의 각 노드는 분석하려는 시퀀스의 상태 또는 가능한 값을 나타냅니다. 노드의 배경색은 해당 상태의 빈도를 나타냅니다. 선은 일부 상태를 연결하여 상태 간 전환을 나타냅니다. 슬라이더를 위아래로 이동하여 전환에 대한 확률 임계값을 변경할 수 있습니다. 숫자는 해당 상태의 확률을 나타내는 일부 노드와 연결됩니다.

상태 전환 탭에서 관계를 탐색하려면

  1. 마이닝 모델 뷰어의 상태 전환 탭에서 클러스터 목록에서 선택합니다 Pacific Cluster . Edge 레이블 표시 옵션이 선택되어 있는지 확인합니다.

    그래프가 업데이트되어 이 클러스터에서 가장 일반적인 전환을 표시합니다.

  2. 한 줄로 다른 노드에 연결된 노드를 클릭합니다.

    그래프가 업데이트되고 관련 노드가 강조 표시됩니다. 줄 옆의 숫자 값은 전환의 확률을 나타냅니다.

  3. 그래프에 포함된 전환 수를 늘리려면 슬라이더를 모든 링크로 올립니다.

  4. 클러스터에서 인구(전체)를 선택합니다.

    다른 클러스터를 로드하면 그래프가 기본 표시 설정으로 다시 설정되므로 슬라이더 컨트롤이 가운데 위치로 다시 설정됩니다.

  5. 그래프에서 Sport-100이어야 하는 가장 어두운 노드를 클릭합니다.

    이 제품을 다른 제품에 연결하는 줄은 없습니다.

  6. 그래프에 포함된 전환 수를 늘리려면 슬라이더를 한 단계 위로 올립니다. 아직 모든 링크로 이동하지 마십시오.

    그래프는 그래프에 몇 가지 전환을 더 추가하여 업데이트되지만 Sport-100 모델을 포함하는 것은 없습니다.

  7. 슬라이더 컨트롤을 모든 링크로 이동합니다. Sport-100 노드를 아직 선택하지 않은 경우 클릭합니다.

    그래프는 Sport-100 제품을 포함하는 많은 전환을 표시하도록 업데이트됩니다. 연결선의 화살표 방향은 Sport-100 항목이 첫 번째 항목으로 선택되었는지 아니면 쌍의 두 번째 항목으로 선택되었는지를 알려줍니다.

  8. Touring Tire의 노드를 클릭하고 슬라이더 컨트롤을 다시 가운데 위치로 이동합니다.

    처음에는 투어링 타이어를 다른 제품과 연결하는 전환선이 많지만, 확률 임계값을 높이면 가능성이 낮은 전환선이 제거되고, 최종적으로 투어링 타이어 > 투어링 타이어 튜브만 남게 됩니다. 이러한 전환은 고객이 투어링 타이어를 장바구니에 넣으면 고객이 다음에 투어링 타이어 튜브를 바구니에 넣을 가능성이 크다는 것을 의미합니다.

맨 위로 돌아가기

일반 콘텐츠 트리 뷰어

이 뷰어는 알고리즘 또는 모델 유형에 관계없이 모든 모델에 사용할 수 있습니다. MicrosoftGeneric 콘텐츠 트리 뷰어는뷰어 드롭다운 목록에서 사용할 수 있습니다.

콘텐츠 트리는 모든 마이닝 모델을 일련의 노드로 표현한 것입니다. 여기서 각 노드는 학습 데이터에 대한 학습된 지식을 나타냅니다. 노드에는 패턴, 규칙 집합, 클러스터 또는 일부 특성을 공유하는 날짜 범위의 정의가 포함될 수 있습니다. 노드의 정확한 콘텐츠는 알고리즘 및 예측 가능한 특성에 따라 다르지만 콘텐츠의 일반적인 표현은 동일합니다.

각 노드를 확장하여 증가하는 세부 수준을 확인하고 모든 노드의 콘텐츠를 클립보드에 복사할 수 있습니다. 자세한 내용은 Microsoft 일반 콘텐츠 트리 뷰어를 사용하여 모델 찾아보기를 참조하세요.

일반 콘텐츠 트리 뷰어를 사용하여 시퀀스 클러스터링 모델에 대한 세부 정보를 보려면

  1. 마이닝 모델 뷰어 탭에서 뷰어 목록을 클릭하고 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.

  2. 노드 캡션 창에서 을 클릭합니다Pacific Cluster (1).

    이 노드의 이름에는 클러스터에 할당한 친숙한 이름과 기본 노드 ID가 모두 포함됩니다. 노드 ID를 사용하여 모델의 추가 세부 정보로 드릴다운할 수 있습니다.

  3. 클러스터 1의 시퀀스 수준이라는 첫 번째 자식 노드를 확장합니다.

    클러스터의 시퀀스 수준 노드에는 해당 클러스터에 포함된 상태 및 전환에 대한 세부 정보가 포함됩니다. NODE_DISTRIBUTION 열에서 사용할 수 있는 이러한 세부 정보를 사용하여 각 클러스터 또는 모델에 대한 시퀀스 및 상태를 잠시 동안 탐색할 수 있습니다.

  4. 계속해서 노드를 확장하고 HTML 뷰어 창에서 세부 정보를 봅니다.

마이닝 모델 콘텐츠 및 뷰어의 세부 정보를 사용하는 방법에 대한 자세한 내용은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

맨 위로 돌아가기

수업의 다음 과제

관련 시퀀스 클러스터링 모델 만들기(중간 데이터 마이닝 자습서)

또한 참조하십시오

Microsoft 시퀀스 클러스터링 알고리즘
시퀀스 클러스터링 모델 쿼리 예제