Microsoft 연결 알고리즘
업데이트: 2008년 11월 17일
Microsoft 연결 알고리즘은 Microsoft SQL Server 2005 Analysis Services(SSAS)에서 제공하는 연결 알고리즘으로 추천 엔진에 유용합니다. 추천 엔진은 고객이 이미 구입한 항목 또는 관심을 나타낸 항목을 바탕으로 고객에게 제품을 추천합니다. Microsoft 연결 알고리즘은 장바구니 분석에도 유용합니다. 장바구니 분석에 대한 자세한 내용은 데이터 마이닝 자습서의 4단원: 장바구니 시나리오 구축를 참조하십시오.
연결 모델은 개별 사례 및 사례에 포함된 항목 모두에 대한 식별자를 포함하는 데이터 집합을 기반으로 작성됩니다. 사례에 포함된 항목 그룹을 항목 집합이라고 합니다. 연결 모델은 일련의 항목 집합과 이러한 항목이 사례 내에서 그룹화되는 방법을 설명하는 규칙으로 구성됩니다. 알고리즘이 식별하는 규칙은 고객의 장바구니에 이미 들어 있는 항목을 바탕으로 고객의 향후 구매 항목을 예측하는 데 사용할 수 있습니다. 다음 다이어그램에서는 항목 집합에 포함된 일련의 규칙을 보여 줍니다.
다이어그램에서와 같이 Microsoft 연결 알고리즘을 사용하여 데이터 집합 내에 있는 많은 규칙을 찾을 수 있습니다. 알고리즘은 지원 매개 변수 및 확률 매개 변수를 사용하여 알고리즘이 생성하는 항목 집합 및 규칙을 설명합니다. 예를 들어 장바구니에 들어 있을 수 있는 두 항목을 X와 Y라고 할 때 지원 매개 변수는 X 항목과 Y 항목의 조합을 포함하는 데이터 집합 내 사례 수를 가리킵니다. 알고리즘은 생성된 항목 집합 수를 사용자 정의 MINIMUM_SUPPORT 및 MAXIMUM_SUPPORT 매개 변수와 지원 매개 변수를 함께 사용하여 제어합니다. 신뢰도라고도 하는 확률 매개 변수는 X와 Y를 포함하는 데이터 집합 내 사례의 비율을 나타냅니다. 알고리즘은 생성된 규칙 수를 MINIMUM_PROBABILITY 매개 변수와 확률 매개 변수를 함께 사용하여 제어합니다.
예
Adventure Works Cycles 회사에서 웹 사이트의 기능을 다시 디자인하고 있습니다. 이번 디자인은 제품의 판매량 증가를 목표로 하고 있습니다. 회사의 트랜잭션 데이터베이스에 모든 판매가 기록되기 때문에 Microsoft 연결 알고리즘을 사용하여 함께 구매될 가능성이 높은 제품 집합을 식별할 수 있습니다. 그런 다음 고객의 장바구니에 이미 들어 있는 항목을 바탕으로 고객이 관심을 가질 만한 추가 항목을 예측할 수 있습니다.
알고리즘 작동 방법
Microsoft 연결 알고리즘은 데이터 집합을 이동하여 사례에 함께 나타나는 항목을 찾습니다. 그런 다음 MINIMUM_SUPPORT 매개 변수에 의해 지정된 최소 사례 수에 나타나는 관련 항목을 항목 집합으로 그룹화합니다. 예를 들어 항목 집합이 "Mountain 200=Existing, Sport 100=Existing"이고 지원 매개 변수 값이 710인 경우 알고리즘은 이러한 항목 집합에서 규칙을 생성합니다. 이러한 규칙은 알고리즘이 중요하다고 식별하는 다른 특정 항목의 존재 여부를 바탕으로 데이터베이스에 특정 항목이 존재하는지 여부를 예측하는 데 사용됩니다. 예를 들어 규칙이 "if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing"이고 확률 매개 변수 값이 0.812인 경우 알고리즘은 장바구니에 Touring 1000 Tire 및 Road Bottle Cage가 들어 있음을 식별하고 Water Bottle도 장바구니에 포함될 가능성이 높음을 예측합니다.
알고리즘 사용
연결 모델은 하나의 키 열, 여러 개의 입력 열 및 하나의 예측 가능한 열을 포함해야 합니다. 입력 열은 불연속 열이어야 합니다. 연결 모델에 대한 입력 데이터가 두 개의 테이블에 포함되는 경우가 자주 있습니다. 예를 들어 한 테이블은 고객 정보를 포함하고 다른 테이블은 고객 구매 내역을 포함할 수 있습니다. 중첩 테이블을 사용하여 이 데이터를 모델에 입력할 수 있습니다. 중첩 테이블에 대한 자세한 내용은 중첩 테이블을 참조하십시오.
Microsoft 연결 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.
입력 열 내용 유형 |
Cyclical, Discrete, Discretized, Key, Table 및 Ordered |
예측 가능한 열 내용 유형 |
Cyclical, Discrete, Discretized, Table 및 Ordered |
모델링 플래그 |
MODEL_EXISTENCE_ONLY 및 NOT NULL |
모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft 연결 알고리즘은 다음 표에 나열된 함수를 추가로 지원합니다.
모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.
Microsoft 연결 알고리즘에서는 PMML(Predictive Model Markup Language)을 사용하여 마이닝 모델을 만들 수 없습니다.
Microsoft 연결 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.
매개 변수
설명
MINIMUM_SUPPORT
알고리즘이 규칙을 생성하기 전에 항목 집합이 있어야 하는 최소 사례 수를 지정합니다. 이 값을 1보다 작게 설정하면 최소 사례 수가 총 사례에 대한 백분율로 지정되고 1보다 큰 정수로 설정하면 최소 사례 수가 항목 집합이 있어야 하는 사례의 절대 수로 지정됩니다. 메모리가 제한된 경우 알고리즘은 이 매개 변수의 값을 늘릴 수 있습니다.
기본값은 0.03입니다.
MAXIMUM_SUPPORT
항목 집합을 지원할 수 있는 최대 사례 수를 지정합니다. 이 값이 1보다 작으면 총 사례의 백분율을 나타내고 1보다 크면 항목 집합을 포함할 수 있는 사례의 절대 수를 나타냅니다.
기본값은 1입니다.
MINIMUM_ITEMSET_SIZE
항목 집합에 사용할 수 있는 최소 항목 수를 지정합니다.
기본값은 1입니다.
MAXIMUM_ITEMSET_SIZE
항목 집합에 사용할 수 있는 최대 항목 수를 지정합니다. 이 값을 0으로 설정하면 항목 집합 크기가 무제한으로 지정됩니다.
기본값은 3입니다.
MAXIMUM_ITEMSET_COUNT
생성할 최대 항목 집합 수를 지정합니다. 값을 지정하지 않으면 기본값이 사용됩니다. 기본값은 200000입니다.
참고:
항목 집합은 지원에 따라서만 등급이 결정됩니다. 동일한 지원을 가진 항목 집합 간의 순서는 임의로 결정됩니다.
MINIMUM_PROBABILITY
규칙이 참이 되는 최소 확률을 지정합니다. 예를 들어 이 값을 0.5로 설정하면 확률이 50% 미만인 규칙은 생성되지 않습니다.
기본값은 0.4입니다.
OPTIMIZED_PREDICTION_COUNT
예측을 위해 캐시하거나 최적화할 항목 수를 정의합니다.
기본값은 0입니다. 기본값이 사용되면 이 알고리즘은 쿼리에서 요청한 것과 같은 수의 예측을 생성합니다.
변경 내역
릴리스 | 내역 |
---|---|
2008년 11월 17일 |
|
2007년 9월 15일 |
|
참고 항목
개념
데이터 마이닝 알고리즘
데이터 마이닝 마법사
데이터 마이닝 도구 사용
Microsoft 연결 규칙 뷰어를 사용하여 마이닝 모델 보기