이 항목에서는 Microsoft 시퀀스 클러스터링 알고리즘을 사용하는 모델과 관련된 마이닝 모델 콘텐츠에 대해 설명합니다. 모든 모델 형식에 적용되는 마이닝 모델 콘텐츠와 관련된 일반 및 통계 용어에 대한 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
시퀀스 클러스터링 모델의 구조 이해
시퀀스 클러스터링 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드(NODE_TYPE = 1)가 있습니다. 레이블이 지정된 부모 노드 (모두)에는 학습 데이터에서 검색된 모든 전환을 나열하는 관련 시퀀스 노드(NODE_TYPE = 13)가 있습니다.
또한 이 알고리즘은 데이터에서 발견된 전환 및 모델을 만들 때 포함된 다른 입력 특성(예: 고객 인구 통계 등)을 기반으로 여러 클러스터를 만듭니다. 각 클러스터(NODE_TYPE = 5)에는 해당 특정 클러스터를 생성하는 데 사용된 전환만 나열하는 자체 시퀀스 노드(NODE_TYPE = 13)가 포함됩니다. 시퀀스 노드에서 드릴다운하여 개별 상태 전환의 세부 정보를 볼 수 있습니다(NODE_TYPE = 14).
예제와 함께 시퀀스 및 상태 전환에 대한 설명은 Microsoft 시퀀스 클러스터링 알고리즘을 참조하세요.
시퀀스 클러스터링 모델에 대한 모델 콘텐츠
이 섹션에서는 시퀀스 클러스터링에 대한 특정 관련성이 있는 마이닝 모델 콘텐츠의 열에 대한 추가 정보를 제공합니다.
모델 카탈로그
모델이 저장되는 데이터베이스의 이름입니다.
MODEL_NAME
모델의 이름입니다.
속성_이름
항상 비어 있습니다.
노드 이름
노드의 이름입니다. 현재 동일한 값은 NODE_UNIQUE_NAME과 같습니다.
NODE_UNIQUE_NAME
노드의 고유 이름입니다.
NODE_TYPE
시퀀스 클러스터링 모델은 다음 노드 형식을 출력합니다.
| 노드 형식 ID | 설명 |
|---|---|
| 1(모델) | 모델의 루트 노드 |
| 5(클러스터) | 클러스터의 전환 수, 특성 목록 및 클러스터의 값을 설명하는 통계를 포함합니다. |
| 13(시퀀스) | 클러스터에 포함된 전환 목록을 포함합니다. |
| 14(전환) | 이벤트 시퀀스를 첫 번째 행에 시작 상태가 포함되고 다른 모든 행에는 지원 및 확률 통계와 함께 연속된 상태가 포함된 테이블로 설명합니다. |
NODE_GUID
빈.
노드 캡션
표시를 위해 노드와 연결된 레이블 또는 캡션입니다.
모델을 사용하는 동안 클러스터 캡션의 이름을 바꿀 수 있습니다. 그러나 모델을 닫으면 새 이름이 유지되지 않습니다.
자식 수
노드에 있는 자식 수의 추정값입니다.
모델 루트 카디널리티 값은 클러스터 수와 1개와 같습니다. 자세한 내용은 카디널리티를 참조하세요.
클러스터 노드 카디널리티는 항상 1입니다. 각 클러스터에는 클러스터의 시퀀스 목록이 포함된 단일 자식 노드가 있기 때문입니다.
시퀀스 노드 카디널리티는 해당 클러스터에 포함된 전환 수를 나타냅니다. 예를 들어 모델 루트에 대한 시퀀스 노드의 카디널리티는 전체 모델에서 발견된 전환 수를 알려줍니다.
상위_고유_이름
노드 부모의 고유 이름입니다.
루트 수준의 모든 노드에 대해 NULL이 반환됩니다.
노드 설명
노드 캡션과 동일합니다.
NODE_RULE
항상 비어 있습니다.
MARGINAL_RULE
항상 비어 있습니다.
노드 확률
모델 루트 항상 0.
클러스터 노드 모델에서 클러스터의 조정된 확률입니다. 시퀀스 클러스터링에 사용되는 클러스터링 메서드는 여러 클러스터의 부분 멤버 자격을 허용하기 때문에 조정된 확률은 1로 합산되지 않습니다.
시퀀스 노드 항상 0.
전환 노드 항상 0.
한계 확률
모델 루트 항상 0.
클러스터 노드 NODE_PROBABILITY 동일한 값입니다.
시퀀스 노드 항상 0.
전환 노드 항상 0.
NODE_DISTRIBUTION
확률 및 기타 정보를 포함하는 테이블입니다. 자세한 내용은 NODE_DISTRIBUTION 표를 참조하세요.
NODE_SUPPORT
이 노드를 지원하는 전환 수입니다. 따라서 학습 데이터에 시퀀스 "Product A 다음에 Product B"가 30개 있는 경우 총 지원은 30개입니다.
모델 루트 모델의 총 전환 수입니다.
클러스터 노드 클러스터에 대한 원시 지원입니다. 즉, 이 클러스터에 사례를 제공하는 학습 사례의 수를 의미합니다.
시퀀스 노드 항상 0.
전환 노드 특정 전환을 나타내는 클러스터의 사례 비율입니다. 0이거나 양수 값을 가질 수 있습니다. 클러스터 노드에 대한 원시 지원을 사용하고 클러스터의 확률을 곱하여 계산됩니다.
이 값에서 전환에 기여한 학습 사례 수를 알 수 있습니다.
MSOLAP_MODEL_COLUMN
적용할 수 없습니다.
MSOLAP_NODE_SCORE
적용할 수 없습니다.
MSOLAP_NODE_SHORT_CAPTION
NODE_DESCRIPTION 동일합니다.
시퀀스, 상태 및 전환 이해
시퀀스 클러스터링 모델에는 두 종류의 개체를 매우 다른 유형의 정보와 결합하는 고유한 구조가 있습니다. 첫 번째는 클러스터이고 두 번째는 상태 전환입니다.
시퀀스 클러스터링에서 만든 클러스터는 Microsoft 클러스터링 알고리즘에서 만든 클러스터와 같습니다. 각 클러스터에는 프로필과 특성이 있습니다. 그러나 시퀀스 클러스터링에서 각 클러스터에는 해당 클러스터의 시퀀스를 나열하는 단일 자식 노드가 추가로 포함됩니다. 각 시퀀스 노드에는 확률과 함께 상태 전환을 자세히 설명하는 여러 자식 노드가 포함되어 있습니다.
시퀀스를 함께 연결할 수 있기 때문에 모델에는 단일 사례에서 찾을 수 있는 것보다 거의 항상 더 많은 시퀀스가 있습니다. Microsoft Analysis Services는 각 전환이 발생하는 횟수를 계산할 수 있도록 포인터를 한 상태에서 다른 상태로 저장합니다. 시퀀스가 발생한 횟수에 대한 정보를 찾고 관찰된 상태의 전체 집합과 비교하여 발생 확률을 측정할 수도 있습니다.
다음 표에는 정보가 모델에 저장되는 방법 및 노드가 관련된 방법이 요약되어 있습니다.
| 노드 | 자식 노드가 있음 | NODE_DISTRIBUTION 테이블 |
|---|---|---|
| 모델 루트 | 여러 클러스터 노드 전체 모델에 대한 시퀀스가 있는 노드 |
지원 및 확률을 사용하여 모델의 모든 제품을 나열합니다. 클러스터링 메서드는 여러 클러스터에서 부분 멤버 자격을 허용하므로 지원 및 확률에는 소수 값이 있을 수 있습니다. 즉, 단일 사례를 한 번 계산하는 대신 각 사례가 잠재적으로 여러 클러스터에 속할 수 있습니다. 따라서 최종 클러스터 멤버 자격이 결정되면 해당 클러스터의 확률에 따라 값이 조정됩니다. |
| 모델에 대한 순서 노드 | 여러 전환 노드 | 지원 및 확률을 사용하여 모델의 모든 제품을 나열합니다. 시퀀스 수는 모델에 대해 알려져 있으므로 이 수준에서 지원 및 확률에 대한 계산은 간단합니다. 지원 = 사례 수 Probability = 모델에서 각 시퀀스의 원시 확률입니다. 모든 확률은 1로 합산되어야 합니다. |
| 개별 클러스터 노드 | 해당 클러스터에 대한 시퀀스만 있는 노드 | 클러스터의 모든 제품을 나열하지만 클러스터의 특징인 제품에 대해서만 지원 및 확률 값을 제공합니다. 지원은 이 클러스터의 각 사례에 대해 조정된 지원 값을 나타냅니다. 확률 값은 조정된 확률입니다. |
| 개별 클러스터에 대한 시퀀스 노드 | 해당 클러스터의 시퀀스에 대한 전환만 있는 여러 노드 | 개별 클러스터 노드와 정확히 동일한 정보입니다. |
| 전환 | 자식 없음 | 관련 첫 번째 상태에 대한 전환을 나열합니다. 지원은 각 전환에 참여하는 사례를 나타내는 조정된 지원 값입니다. 확률은 백분율로 표시된 조정된 확률입니다. |
NODE_DISTRIBUTION 테이블
NODE_DISTRIBUTION 표는 특정 클러스터의 전환 및 시퀀스에 대한 자세한 확률 및 지원 정보를 제공합니다.
가능한 Missing 값을 나타내기 위해 항상 행이 전환 테이블에 추가됩니다. 값의 Missing 의미와 계산에 미치는 영향에 대한 자세한 내용은 누락된 값(Analysis Services - 데이터 마이닝)을 참조하세요.
지원 및 확률에 대한 계산은 계산이 학습 사례에 적용되는지 또는 완성된 모델에 적용되는지에 따라 다릅니다. 이는 기본 클러스터링 방법인 EM(Expectation Maximization)에서 모든 사례가 둘 이상의 클러스터에 속할 수 있다고 가정하기 때문입니다. 모델의 사례에 대한 지원을 계산할 때 원시 개수 및 원시 확률을 사용할 수 있습니다. 그러나 클러스터의 특정 시퀀스에 대한 확률은 가능한 모든 시퀀스 및 클러스터 조합의 합계에 따라 가중치가 지정되어야 합니다.
카디널리티
클러스터링 모델에서 부모 노드의 카디널리티는 일반적으로 모델에 있는 클러스터 수를 알려줍니다. 그러나 시퀀스 클러스터링 모델에는 클러스터 수준에서 두 종류의 노드가 있습니다. 한 종류의 노드에는 클러스터가 포함되고 다른 종류의 노드에는 전체 모델에 대한 시퀀스 목록이 포함됩니다.
따라서 모델의 클러스터 수를 알아보려면 (모두) 노드에 대한 NODE_CARDINALITY 값을 가져와서 뺄 수 있습니다. 예를 들어 모델이 9개의 클러스터를 만든 경우 모델 루트의 카디널리티는 10입니다. 모델에는 각각 고유한 시퀀스 노드가 있는 9개의 클러스터 노드와 모델의 시퀀스를 나타내는 클러스터 10이라는 레이블이 지정된 하나의 추가 시퀀스 노드가 포함되어 있기 때문입니다.
구조 탐색
예를 들어 정보가 저장되는 방법과 정보를 해석하는 방법을 명확히 하는 데 도움이 될 수 있습니다. 예를 들어 다음 쿼리를 사용하여 기본 AdventureWorksDW2012 데이터에서 관찰된 가장 긴 체인을 의미하는 가장 큰 순서를 찾을 수 있습니다.
USE AdventureWorksDW2012
SELECT DISTINCT OrderNumber, Count(*)
FROM vAssocSeqLineItems
GROUP BY OrderNumber
ORDER BY Count(*) DESC
이러한 결과에서 주문 번호 'SO72656', 'SO58845' 및 'SO70714'에 각각 8개의 항목이 있는 가장 큰 시퀀스가 포함됩니다. 주문 ID를 사용하여 특정 주문의 세부 정보를 확인하여 구매한 항목과 주문 순서를 확인할 수 있습니다.
| 주문번호 | 라인 번호 | 모델 |
|---|---|---|
| SO58845 | 1 | Mountain-500 |
| SO58845 | 2 | LL Mountain Tire |
| SO58845 | 3 | Mountain Tire Tube |
| SO58845 | 4 | 펜더 세트 - 마운틴 |
| SO58845 | 5 | 산악 자전거 물병 케이지 |
| SO58845 | 6 | 물병 |
| SO58845 | 7 | 스포츠-100 |
| SO58845 | 8 (여덟) | Long-Sleeve 로고 저지 |
그러나 Mountain-500을 구매하는 일부 고객은 다른 제품을 구매할 수 있습니다. 모델의 시퀀스 목록을 확인하여 Mountain-500을 따르는 모든 제품을 볼 수 있습니다. 다음 절차에서는 Analysis Services에 제공된 두 뷰어를 사용하여 이러한 시퀀스를 보는 방법을 안내합니다.
시퀀스 클러스터링 뷰어를 사용하여 관련 시퀀스를 보려면
개체 탐색기에서 [시퀀스 클러스터링] 모델을 마우스 오른쪽 단추로 클릭하고 찾아보기를 선택합니다.
시퀀스 클러스터링 뷰어에서 상태 전환 탭을 클릭합니다.
클러스터 드롭다운 목록에서 인구(전체)가 선택되어 있는지 확인합니다.
창 왼쪽의 슬라이더 막대를 맨 위로 이동하여 모든 링크를 표시합니다.
다이어그램에서 Mountain-500을 찾고 다이어그램에서 노드를 클릭합니다.
강조 표시된 선은 다음 상태(Mountain-500 이후 구매한 제품)를 가리키며 숫자는 확률을 나타냅니다. 이를 제네릭 모델 콘텐츠 뷰어의 결과와 비교합니다.
제네릭 모델 콘텐츠 뷰어를 사용하여 관련 시퀀스를 보려면
개체 탐색기에서 [시퀀스 클러스터링] 모델을 마우스 오른쪽 단추로 클릭하고 찾아보기를 선택합니다.
뷰어 드롭다운 목록에서 Microsoft 일반 콘텐츠 트리 뷰어를 선택합니다.
노드 캡션 창에서 클러스터 16의 시퀀스 수준이라는 노드를 클릭합니다.
노드 세부 정보 창에서 NODE_DISTRIBUTION 행을 찾고 중첩된 테이블의 아무 곳이나 클릭합니다.
맨 위 행은 항상 누락 값에 대한 것입니다. 이 행은 시퀀스 상태 0입니다.
아래쪽 화살표 키를 누르거나 스크롤 막대를 사용하여 행이 Mountain-500이 표시될 때까지 중첩된 테이블을 통해 아래로 이동합니다.
이 행은 시퀀스 상태 20입니다.
비고
프로그래밍 방식으로 특정 시퀀스 상태의 행 번호를 가져올 수 있지만 검색하는 경우 중첩된 테이블을 Excel 통합 문서에 복사하는 것이 더 쉬울 수 있습니다.
노드 캡션 창으로 돌아가서 아직 확장되지 않은 경우 클러스터 16의 시퀀스 수준인 노드를 확장합니다.
시퀀스 상태 20의 전환 행을 포함한 자식 노드를 찾으세요. 전환 노드를 클릭합니다.
중첩된 NODE_DISTRIBUTION 테이블에는 다음 제품 및 확률이 포함됩니다. 시퀀스 클러스터링 뷰어의 상태 전환 탭에 있는 결과와 비교합니다.
다음 표에서는 그래픽 뷰어에 표시되는 반올림된 확률 값과 함께 NODE_DISTRIBUTION 테이블의 결과를 보여 줍니다.
| 제품 | 지원(NODE_DISTRIBUTION 테이블) | Probability(NODE_DISTRIBUTION) 테이블) | 확률(그래프에서) |
|---|---|---|---|
| 없어진 | 48.447887 | 0.138028169 | (표시되지 않음) |
| 사이클링 캡 | 10.876056 | 0.030985915 | 0.03 |
| 펜더 세트 - 마운틴 | 80.087324 | 0.228169014 | 0.23 |
| Half-Finger 장갑 | 0.9887324 | 0,002816901 | 0.00 |
| 하이드레이션 팩 | 0.9887324 | 0.002816901 | 0.00 |
| LL Mountain Tire | 51.414085 | 0.146478873 | 0.15 |
| Long-Sleeve 로고 저지 | 2.9661972 | 0.008450704 | 0.01 |
| 산악 자전거 물병 케이지 | 87.997183 | 0.250704225 | 0.25 |
| Mountain Tire Tube | 16.808451 | 0.047887324 | 0.05 |
| Short-Sleeve 클래식 유니폼 | 10.876056 | 0.030985915 | 0.03 |
| 스포츠-100 | 20.76338 | 0.05915493 | 0.06 |
| 물병 | 18.785915 | 0.053521127 | 0.25 |
학습 데이터에서 처음에 선택한 사례에는 'Mountain-500' 제품과 'LL Mountain Tire'가 포함되어 있지만, 다른 많은 시퀀스가 있음을 알 수 있습니다. 특정 클러스터에 대한 자세한 정보를 찾으려면 클러스터의 시퀀스 목록에서 각 상태 또는 제품에 대한 실제 전환으로 드릴다운하는 프로세스를 반복해야 합니다.
특정 클러스터에 나열된 시퀀스에서 전환 행으로 이동할 수 있습니다. 해당 전환 행에서 다음 제품을 확인하고 시퀀스 목록에서 해당 제품으로 다시 이동할 수 있습니다. 각 첫 번째 및 두 번째 상태에 대해 이 프로세스를 반복하면 긴 상태 체인을 통해 작업할 수 있습니다.
시퀀스 정보 사용
시퀀스 클러스터링의 일반적인 시나리오는 웹 사이트에서 사용자 클릭을 추적하는 것입니다. 예를 들어 Adventure Works 전자상거래 웹 사이트의 고객 구매 레코드에서 데이터가 나온 경우 결과 시퀀스 클러스터링 모델을 사용하여 사용자 동작을 유추하거나, 전자 상거래 사이트를 다시 디자인하여 탐색 문제를 해결하거나, 판매를 촉진할 수 있습니다.
예를 들어 분석에 따르면 사용자는 인구 통계에 관계없이 항상 특정 제품 체인을 따르는 것으로 나타날 수 있습니다. 또한 사용자가 특정 제품을 클릭한 후 사이트를 자주 종료하는 것을 확인할 수 있습니다. 이러한 결과를 감안할 때 사용자가 웹 사이트에 머물도록 유도하는 사용자에게 제공할 수 있는 추가 경로를 물어볼 수 있습니다.
사용자를 분류하는 데 사용할 추가 정보가 없는 경우 시퀀스 정보를 사용하여 탐색에 대한 데이터를 수집하여 전반적인 동작을 더 잘 이해할 수 있습니다. 그러나 고객에 대한 정보를 수집하고 해당 정보를 고객 데이터베이스와 일치시킬 수 있는 경우 클러스터링의 기능을 시퀀스에 대한 예측과 결합하여 사용자에 맞게 조정된 권장 사항을 제공하거나 현재 페이지 탐색 경로를 기반으로 할 수 있습니다.
시퀀스 클러스터링 모델에서 컴파일한 광범위한 상태 및 전환 정보의 또 다른 사용은 사용되지 않는 가능한 경로를 결정하는 것입니다. 예를 들어 1-4페이지로 가는 방문자가 많지만 방문자가 5페이지로 계속 이동하지 않는 경우 5페이지로의 탐색을 방해하는 문제가 있는지 조사할 수 있습니다. 모델 콘텐츠를 쿼리하고 가능한 경로 목록과 비교하여 이 작업을 수행할 수 있습니다. 웹 사이트의 모든 탐색 경로를 알려주는 그래프는 프로그래밍 방식으로 만들거나 다양한 사이트 분석 도구를 사용하여 만들 수 있습니다.
모델 콘텐츠를 쿼리하여 관찰된 경로 목록을 가져오는 방법을 알아보고 시퀀스 클러스터링 모델에서 쿼리의 다른 예제를 보려면 시퀀스 클러스터링 모델 쿼리 예제를 참조하세요.
또한 참조하십시오
마이닝 모델 콘텐츠(분석 서비스 - 데이터 마이닝)
Microsoft 시퀀스 클러스터링 알고리즘
시퀀스 클러스터링 모델 쿼리 예제