Microsoft 시퀀스 클러스터링 알고리즘은 Microsoft SQL Server Analysis Services에서 제공하는 시퀀스 분석 알고리즘입니다. 이 알고리즘을 사용하여 다음 경로 또는 시퀀스로 연결할 수 있는 이벤트가 포함된 데이터를 탐색할 수 있습니다. 알고리즘은 동일한 시퀀스를 그룹화하거나 클러스터링하여 가장 일반적인 시퀀스를 찾습니다. 다음은 일반적인 문제 또는 비즈니스 시나리오에 대한 인사이트를 제공하기 위해 데이터 마이닝에 사용할 수 있는 시퀀스를 포함하는 데이터의 몇 가지 예입니다.
사용자가 웹 사이트를 탐색하거나 탐색할 때 생성되는 경로를 클릭합니다.
인시던트 이전의 이벤트(예: 하드 디스크 오류 또는 서버 교착 상태)를 나열하는 로그입니다.
고객이 온라인 소매점의 쇼핑 카트에 항목을 추가하는 순서를 설명하는 트랜잭션 레코드입니다.
시간 경과에 따른 고객(또는 환자) 상호 작용을 따라 서비스 취소 또는 기타 불량 결과를 예측하는 레코드입니다.
이 알고리즘은 Microsoft 클러스터링 알고리즘과 여러 가지 면에서 유사합니다. 그러나 Microsoft 시퀀스 클러스터링 알고리즘은 유사한 특성을 포함하는 사례의 클러스터를 찾는 대신 시퀀스에서 유사한 경로를 포함하는 사례 클러스터를 찾습니다.
예시
Adventure Works Cycles 웹 사이트는 사이트 사용자가 방문하는 페이지 및 페이지를 방문하는 순서에 대한 정보를 수집합니다. 회사에서 온라인 주문을 제공하기 때문에 고객은 사이트에 로그인해야 합니다. 이렇게 하면 각 고객 프로필에 대한 클릭 정보가 회사에 제공됩니다. 이 데이터에 대해 Microsoft Sequence Clustering 알고리즘을 사용하여 회사는 클릭 패턴 또는 시퀀스가 비슷한 고객의 그룹 또는 클러스터를 찾을 수 있습니다. 그런 다음, 이러한 클러스터를 사용하여 사용자가 웹 사이트를 통해 이동하는 방식을 분석하고, 특정 제품의 판매와 가장 밀접하게 관련된 페이지를 식별하고, 다음에 방문할 가능성이 가장 큰 페이지를 예측할 수 있습니다.
알고리즘 작동 방식
Microsoft 시퀀스 클러스터링 알고리즘은 클러스터링 기술을 Markov 체인 분석과 결합하여 클러스터와 해당 시퀀스를 식별하는 하이브리드 알고리즘입니다. Microsoft 시퀀스 클러스터링 알고리즘의 특징 중 하나는 시퀀스 데이터를 사용한다는 것입니다. 이 데이터는 일반적으로 일련의 제품 구매 또는 특정 사용자에 대한 웹 클릭과 같이 데이터 세트의 상태 간에 일련의 이벤트 또는 전환을 나타냅니다. 이 알고리즘은 모든 전환 확률을 검사하고 데이터 세트의 가능한 모든 시퀀스 간의 차이 또는 거리를 측정하여 클러스터링에 대한 입력으로 가장 적합한 시퀀스를 결정합니다. 알고리즘이 후보 시퀀스 목록을 만든 후 클러스터링의 EM 메서드에 대한 입력으로 시퀀스 정보를 사용합니다.
구현에 대한 자세한 설명은 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조를 참조하세요.
시퀀스 클러스터링 모델에 필요한 데이터
시퀀스 클러스터링 모델 학습에 사용할 데이터를 준비할 때 필요한 데이터의 양과 데이터 사용 방법을 포함하여 특정 알고리즘에 대한 요구 사항을 이해해야 합니다.
시퀀스 클러스터링 모델에 대한 요구 사항은 다음과 같습니다.
단일 키 열 시퀀스 클러스터링 모델에는 레코드를 식별하는 키가 필요합니다.
시퀀스 열 시퀀스 데이터의 경우 모델에 시퀀스 ID 열이 포함된 중첩 테이블이 있어야 합니다. 시퀀스 ID는 정렬 가능한 모든 데이터 형식일 수 있습니다. 예를 들어 열이 시퀀스의 이벤트를 식별하는 한 웹 페이지 식별자, 정수 또는 텍스트 문자열을 사용할 수 있습니다. 각 시퀀스에는 하나의 시퀀스 식별자만 허용되며 각 모델에서는 하나의 시퀀스 유형만 허용됩니다.
선택적 비시퀀스 특성 이 알고리즘은 시퀀싱과 관련이 없는 다른 특성의 추가를 지원합니다. 이러한 특성에는 중첩된 열이 포함될 수 있습니다.
예를 들어 Adventure Works Cycles 웹 사이트의 앞부분에서 인용한 예제에서 시퀀스 클러스터링 모델에는 주문 정보가 사례 테이블로, 각 주문에 대한 특정 고객에 대한 인구 통계가 비시퀀스 특성으로 포함되고, 고객이 사이트를 찾아보거나 항목을 쇼핑 카트에 순서 정보로 넣는 시퀀스가 포함된 중첩 테이블이 포함될 수 있습니다.
시퀀스 클러스터링 모델에 지원되는 콘텐츠 형식 및 데이터 형식에 대한 자세한 내용은 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조의 요구 사항 섹션을 참조하세요.
시퀀스 클러스터링 모델 보기
이 알고리즘이 만드는 마이닝 모델에는 데이터에서 가장 일반적인 시퀀스에 대한 설명이 포함되어 있습니다. 모델을 탐색하려면 Microsoft 시퀀스 클러스터 뷰어를 사용할 수 있습니다. 시퀀스 클러스터링 모델을 볼 때 Analysis Services는 여러 전환을 포함하는 클러스터를 표시합니다. 관련 통계를 볼 수도 있습니다. 자세한 내용은 Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델 찾아보기를 참조하세요.
자세한 내용을 확인하려면 Microsoft 일반 콘텐츠 트리 뷰어에서 모델을 찾아볼 수 있습니다. 모델에 대해 저장된 콘텐츠에는 각 노드의 모든 값에 대한 분포, 각 클러스터의 확률 및 전환에 대한 세부 정보가 포함됩니다. 자세한 내용은 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
예측 만들기
모델을 학습한 후에는 결과가 패턴 집합으로 저장됩니다. 데이터에서 가장 일반적인 시퀀스에 대한 설명을 사용하여 새 시퀀스의 다음 단계를 예측할 수 있습니다. 그러나 알고리즘에 다른 열이 포함되어 있으므로 결과 모델을 사용하여 시퀀싱된 데이터와 순차적이지 않은 입력 간의 관계를 식별할 수 있습니다. 예를 들어 모델에 인구 통계 데이터를 추가하는 경우 특정 고객 그룹에 대한 예측을 수행할 수 있습니다. 예측 쿼리는 가변적인 수의 예측을 반환하거나 설명 통계를 반환하도록 사용자 지정할 수 있습니다.
데이터 마이닝 모델에 대한 쿼리를 만드는 방법에 대한 자세한 내용은 데이터 마이닝 쿼리를 참조하세요. 시퀀스 클러스터링 모델에서 쿼리를 사용하는 방법에 대한 예제는 시퀀스 클러스터링 모델 쿼리 예제를 참조하세요.
비고
PMML(예측 모델 태그 언어)을 사용하여 마이닝 모델을 만드는 것은 지원되지 않습니다.
드릴스루 기능을 지원합니다.
OLAP 마이닝 모델 사용 및 데이터 마이닝 차원 생성을 지원합니다.
또한 참조하십시오
데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)
Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
시퀀스 클러스터링 모델 쿼리 예제
Microsoft 시퀀스 클러스터 뷰어를 사용하여 모델 찾아보기