데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)

2013-07-30

데이터 마이닝 알고리즘은 데이터로부터 데이터 마이닝 모델을 만드는 추론 및 계산 집합입니다. 모델을 만들기 위해 알고리즘은 제공된 데이터를 분석하여 특정 유형의 패턴 또는 추세를 찾습니다. 알고리즘은 이 분석 결과를 사용하여 마이닝 모델을 만들기 위한 최적의 매개 변수를 정의합니다. 그런 다음 이러한 매개 변수를 전체 데이터 집합에 적용하여 동작 가능한 패턴과 자세한 통계를 추출합니다.

알고리즘이 데이터로부터 만드는 마이닝 모델은 다음과 같은 다양한 형태가 될 수 있습니다.

데이터 집합의 사례 간 관계를 설명하는 일련의 클러스터
결과를 예측하고 각 조건이 결과에 미치는 영향을 설명하는 의사 결정 트리
판매를 예측하는 수학적 모델
트랜잭션에서 제품이 그룹화되는 방법과 제품을 함께 구입할 확률을 설명하는 일련의 규칙

Microsoft SQL Server Analysis Services에서는 데이터 마이닝 솔루션에서 사용할 수 있는 여러 가지 알고리즘을 제공합니다. 이러한 알고리즘은 데이터 마이닝에 가장 많이 사용되는 몇 가지 방법을 구현한 것입니다. 제공된 API를 사용하거나 SQL Server Integration Services의 데이터 마이닝 구성 요소를 사용하여 모든 Microsoft 데이터 마이닝 알고리즘을 사용자 지정하고 프로그래밍할 수 있습니다.

OLE DB for Data Mining 사양을 준수하는 타사 알고리즘을 사용하거나 서비스로 등록한 다음 SQL Server 데이터 마이닝 프레임워크에서 사용할 수 있는 사용자 지정 알고리즘을 개발할 수도 있습니다.

알고리즘 선택

특정 분석 태스크에 적합한 알고리즘을 선택하는 것은 결코 쉽지 않습니다. 동일한 비즈니스 태스크를 수행하기 위해 여러 알고리즘을 사용할 수 있지만 이렇게 하면 각 알고리즘에서 다른 결과를 생성하며 일부 알고리즘에서는 두 개 이상의 결과 유형을 생성할 수 있습니다. 예를 들어 의사 결정 트리가 최종 마이닝 모델에 영향을 미치지 않는 열을 식별할 수 있기 때문에 예측하거나 데이터 집합의 열 수를 줄이는 데 Microsoft 의사 결정 트리 알고리즘을 사용할 수 있습니다.

유형별 알고리즘 선택

Analysis Services에는 다음과 같은 알고리즘 유형이 포함되어 있습니다.

데이터 집합의 다른 특성을 기반으로 하나 이상의 불연속 변수를 예측하는 분류 알고리즘.
데이터 집합의 다른 특성을 기반으로 수익 또는 손실과 같은 하나 이상의 연속 변수를 예측하는 회귀 알고리즘.
데이터를 속성이 유사한 항목의 그룹 또는 클러스터로 나누는 세그먼트화 알고리즘.
데이터 집합에 있는 여러 특성 사이의 상관 관계를 찾는 연결 알고리즘. 이러한 종류의 알고리즘은 시장 바구니 분석에 사용할 수 있는 연결 규칙을 만드는 데 가장 일반적으로 적용됩니다.
웹 경로 흐름과 같이 데이터에서 자주 사용하는 시퀀스 또는 에피소드를 요약하는 시퀀스 분석 알고리즘.

솔루션에서 알고리즘을 하나로 제한해야 할 이유는 없습니다. 경험이 많은 분석가는 경우에 따라 하나의 알고리즘을 사용하여 가장 효율적인 입력(즉, 변수)을 결정하고, 다른 알고리즘을 적용하여 해당 데이터를 기반으로 특정 결과를 예측하기도 합니다. SQL Server 데이터 마이닝을 사용하여 단일의 마이닝 구조에서 여러 모델을 작성할 수 있으므로, 단일 데이터 마이닝 솔루션에서 클러스터링 알고리즘, 의사 결정 트리 모델 및 naïve Bayes 모델을 사용하여 데이터를 다양하게 표시할 수 있습니다. 또한 단일 솔루션 내에서 여러 알고리즘을 사용하여 별도 태스크를 수행할 수도 있습니다. 예를 들어 회귀를 사용하여 재무 예측을 가져오고, 신경망 알고리즘을 사용하여 판매에 영향을 주는 요소를 분석할 수 있습니다.

태스크별 알고리즘 선택

특정 태스크에서 사용할 알고리즘을 선택하는 데 도움이 되도록 다음 표에서는 각 알고리즘이 일반적으로 사용되는 태스크 유형을 제안합니다.

태스크 예	사용할 Microsoft 알고리즘
불연속 특성 예측 잠재 구매자 목록에서 잠재 고객을 좋음 또는 나쁨 플래그로 지정합니다. 다음 6개월 이내에 서버가 실패할 확률을 계산합니다. 환자 결과를 분류하고 관련 요인을 탐색합니다.	Microsoft 의사 결정 트리 알고리즘 Microsoft Naive Bayes 알고리즘 Microsoft 클러스터링 알고리즘 Microsoft 신경망 알고리즘
연속 특성 예측 내년 매출을 예측합니다. 과거 기록 및 계절별 추세를 고려하여 사이트 방문자를 예측합니다. 인구 통계를 고려하여 위험 점수를 생성합니다.	Microsoft 의사 결정 트리 알고리즘 Microsoft 시계열 알고리즘 Microsoft 선형 회귀 알고리즘
시퀀스 예측 회사 웹 사이트의 클릭 동향 분석을 수행합니다. 서버 장애를 일으키는 요인을 분석합니다. 외래 환자가 내원 중에 수행하는 일련의 활동을 캡처한 후 분석하여 일반 활동에 대한 모범 사례를 공식화합니다.	Microsoft 시퀀스 클러스터링 알고리즘
트랜잭션에서 공통 항목 그룹 찾기 시장 바구니 분석을 사용하여 제품 배치를 결정할 수 있습니다. 구매 고객에게 추가 제품을 제안합니다. 이벤트에 대한 방문자의 설문 조사 데이터를 분석하여 상호 관련된 활동 또는 부스를 찾고 미래 활동을 계획합니다.	Microsoft 연결 알고리즘 Microsoft 의사 결정 트리 알고리즘
유사 항목 그룹 찾기 인구 통계, 동작 등과 같은 특성을 기반으로 환자 위험 프로필 그룹을 만듭니다. 검색 및 구매 패턴별로 사용자를 분석합니다. 사용 특징이 유사한 서버를 식별합니다.	Microsoft 클러스터링 알고리즘 Microsoft 시퀀스 클러스터링 알고리즘

불연속 특성 예측

잠재 구매자 목록에서 잠재 고객을 좋음 또는 나쁨 플래그로 지정합니다.
다음 6개월 이내에 서버가 실패할 확률을 계산합니다.
환자 결과를 분류하고 관련 요인을 탐색합니다.

Microsoft 의사 결정 트리 알고리즘

Microsoft Naive Bayes 알고리즘

Microsoft 클러스터링 알고리즘

Microsoft 신경망 알고리즘

연속 특성 예측

내년 매출을 예측합니다.
과거 기록 및 계절별 추세를 고려하여 사이트 방문자를 예측합니다.
인구 통계를 고려하여 위험 점수를 생성합니다.

Microsoft 의사 결정 트리 알고리즘

Microsoft 시계열 알고리즘

Microsoft 선형 회귀 알고리즘

시퀀스 예측

회사 웹 사이트의 클릭 동향 분석을 수행합니다.
서버 장애를 일으키는 요인을 분석합니다.
외래 환자가 내원 중에 수행하는 일련의 활동을 캡처한 후 분석하여 일반 활동에 대한 모범 사례를 공식화합니다.

Microsoft 시퀀스 클러스터링 알고리즘

트랜잭션에서 공통 항목 그룹 찾기

시장 바구니 분석을 사용하여 제품 배치를 결정할 수 있습니다.
구매 고객에게 추가 제품을 제안합니다.
이벤트에 대한 방문자의 설문 조사 데이터를 분석하여 상호 관련된 활동 또는 부스를 찾고 미래 활동을 계획합니다.

Microsoft 연결 알고리즘

Microsoft 의사 결정 트리 알고리즘

유사 항목 그룹 찾기

인구 통계, 동작 등과 같은 특성을 기반으로 환자 위험 프로필 그룹을 만듭니다.
검색 및 구매 패턴별로 사용자를 분석합니다.
사용 특징이 유사한 서버를 식별합니다.

Microsoft 클러스터링 알고리즘

Microsoft 시퀀스 클러스터링 알고리즘

관련 내용

다음 표에서는 Analysis Services에 제공되는 각 데이터 마이닝 알고리즘에 대한 학습 리소스를 연결하는 링크를 제공합니다.

알고리즘 기본 사항 설명	알고리즘에서 수행하는 작업과 작업 방법을 설명하고 알고리즘이 유용할 수 있는 비즈니스 시나리오를 간략하게 설명합니다.
	Microsoft 연결 알고리즘 Microsoft 클러스터링 알고리즘 Microsoft 의사 결정 트리 알고리즘 Microsoft 선형 회귀 알고리즘 Microsoft 로지스틱 회귀 알고리즘 Microsoft Naive Bayes 알고리즘 Microsoft 신경망 알고리즘 Microsoft 시퀀스 클러스터링 알고리즘 Microsoft 시계열 알고리즘
기술 참조	알고리즘 구현에 대한 기술 정보를 제공하고 필요한 경우 학술 참조를 제공합니다. 알고리즘의 동작을 제어하고 모델 결과를 사용자 지정하기 위해 설정할 수 있는 매개 변수를 나열합니다. 데이터 요구 사항에 설명하고 가능한 경우 성능 팁을 제공합니다.
	Microsoft 연결 알고리즘 기술 참조 Microsoft 클러스터링 알고리즘 기술 참조 Microsoft 의사 결정 트리 알고리즘 기술 참조 Microsoft 선형 회귀 알고리즘 기술 참조 Microsoft 로지스틱 회귀 알고리즘 기술 참조 Microsoft Naive Bayes 알고리즘 기술 참조 Microsoft 신경망 알고리즘 기술 참조 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조 Microsoft 시계열 알고리즘 기술 참조
모델 콘텐츠	각 데이터 마이닝 모델 유형에서 정보가 구성되는 방법과 각 노드에 저장된 정보를 해석하는 방법을 설명합니다.
	연결 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 의사 결정 트리 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 로지스틱 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) Naive Bayes 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 신경망 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 시퀀스 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) 시계열 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)
데이터 마이닝 쿼리	각 모델 유형과 함께 사용할 수 있는 여러 쿼리를 제공합니다. 모델의 패턴에 대해 알아 볼 수 있는 콘텐츠 쿼리 및 패턴을 기반으로 예측을 작성하는 데 도움이 되는 예측 쿼리 등을 예로 들 수 있습니다.
	연결 모델 쿼리 예제 클러스터링 모델 쿼리 예제 의사 결정 트리 모델 쿼리 예제 선형 회귀 모델 쿼리 예제 로지스틱 회귀 모델 쿼리 예제 Naive Bayes 모델 쿼리 예제 신경망 모델 쿼리 예제 시퀀스 클러스터링 모델 쿼리 예제 시계열 모델 쿼리 예제

항목	설명
데이터 마이닝 모델에 사용되는 알고리즘 결정	마이닝 모델을 만드는 데 사용한 매개 변수 쿼리
사용자 지정 플러그 인 알고리즘 만들기	플러그 인 알고리즘
알고리즘별 뷰어를 사용하여 모델 탐색	데이터 마이닝 모델 뷰어
일반 테이블 형식을 사용하여 모델 내용 보기	Microsoft 일반 콘텐츠 트리 뷰어를 사용하여 모델 찾아보기
데이터를 설정하고 알고리즘을 사용하여 모델을 만드는 방법에 대해 알아봅니다	마이닝 구조(Analysis Services - 데이터 마이닝) 마이닝 모델(Analysis Services - 데이터 마이닝)

참고 항목

개념

데이터 마이닝 도구

다음을 통해 공유

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)

알고리즘 선택

유형별 알고리즘 선택

태스크별 알고리즘 선택

관련 내용

관련 태스크

참고 항목

개념

추가 리소스