데이터 마이닝 알고리즘은 데이터에서 데이터 마이닝 모델을 만드는 추론 및 계산 집합입니다. 모델을 만들기 위해 알고리즘은 먼저 사용자가 제공하는 데이터를 분석하여 특정 유형의 패턴 또는 추세를 찾습니다. 알고리즘은 이 분석의 결과를 사용하여 마이닝 모델을 만들기 위한 최적의 매개 변수를 정의합니다. 그런 다음, 이러한 매개 변수를 전체 데이터 집합에 적용하여 실행 가능한 패턴과 자세한 통계를 추출합니다.
알고리즘이 데이터에서 만드는 마이닝 모델은 다음을 비롯한 다양한 형태를 취할 수 있습니다.
데이터 세트의 사례와 관련된 방법을 설명하는 클러스터 집합입니다.
결과를 예측하고 다른 기준이 해당 결과에 미치는 영향을 설명하는 의사 결정 트리입니다.
매출을 예측하는 수학 모델입니다.
트랜잭션에서 제품을 함께 그룹화하고 제품을 함께 구매할 확률을 설명하는 규칙 집합입니다.
Microsoft SQL Server Analysis Services는 데이터 마이닝 솔루션에서 사용할 수 있는 여러 알고리즘을 제공합니다. 이러한 알고리즘은 데이터 마이닝에 사용되는 가장 인기 있는 방법론의 구현입니다. 모든 Microsoft 데이터 마이닝 알고리즘을 사용자 지정할 수 있으며 제공된 API를 사용하거나 SQL Server Integration Services의 데이터 마이닝 구성 요소를 사용하여 완전히 프로그래밍할 수 있습니다.
OLE DB for Data Mining 사양을 준수하는 타사 알고리즘을 사용하거나 서비스로 등록한 다음 SQL Server 데이터 마이닝 프레임워크 내에서 사용할 수 있는 사용자 지정 알고리즘을 개발할 수도 있습니다.
올바른 알고리즘 선택
특정 분석 작업에 사용할 최상의 알고리즘을 선택하는 것은 어려울 수 있습니다. 다른 알고리즘을 사용하여 동일한 비즈니스 작업을 수행할 수 있지만 각 알고리즘은 서로 다른 결과를 생성하며 일부 알고리즘은 둘 이상의 결과 유형을 생성할 수 있습니다. 예를 들어 의사 결정 트리는 최종 마이닝 모델에 영향을 미치지 않는 열을 식별할 수 있으므로 예측뿐만 아니라 데이터 세트의 열 수를 줄이는 방법으로 Microsoft 의사 결정 트리 알고리즘을 사용할 수 있습니다.
형식별 알고리즘 선택
Analysis Services에는 다음과 같은 알고리즘 유형이 포함됩니다.
분류 알고리즘은 데이터 세트의 다른 특성에 따라 하나 이상의 불연속 변수를 예측합니다.
회귀 알고리즘은 데이터 세트의 다른 특성을 기반으로 수익 또는 손실과 같은 하나 이상의 연속 변수를 예측합니다.
세분화 알고리즘은 비슷한 속성을 가진 항목의 그룹 또는 클러스터로 데이터를 나눕니다.
연결 알고리즘은 데이터 세트에서 서로 다른 특성 간의 상관 관계를 찾습니다. 이러한 종류의 알고리즘의 가장 일반적인 애플리케이션은 시장 바구니 분석에 사용할 수 있는 연결 규칙을 만드는 것입니다.
시퀀스 분석 알고리즘은 웹 경로 흐름과 같은 데이터의 빈번한 시퀀스 또는 에피소드를 요약합니다.
그러나 솔루션에서 하나의 알고리즘으로 제한해야 할 이유가 없습니다. 숙련된 분석가는 경우에 따라 하나의 알고리즘을 사용하여 가장 효과적인 입력(즉, 변수)을 확인한 다음 다른 알고리즘을 적용하여 해당 데이터를 기반으로 특정 결과를 예측합니다. SQL Server 데이터 마이닝은 단일 마이닝 구조에서 여러 모델을 빌드할 수 있으므로 단일 데이터 마이닝 솔루션 내에서 클러스터링 알고리즘, 의사 결정 트리 모델 및 순진한 Bayes 모델을 사용하여 데이터에 대한 다양한 보기를 가져올 수 있습니다. 단일 솔루션 내에서 여러 알고리즘을 사용하여 별도의 작업을 수행할 수도 있습니다. 예를 들어 회귀를 사용하여 재무 예측을 가져오고 신경망 알고리즘을 사용하여 판매에 영향을 주는 요인의 분석을 수행할 수 있습니다.
작업별 알고리즘 선택
특정 작업에 사용할 알고리즘을 선택하는 데 도움이 되도록 다음 표에서는 각 알고리즘이 전통적으로 사용되는 작업 유형에 대한 제안을 제공합니다.
| 작업의 예 | 사용할 Microsoft 알고리즘들 |
|---|---|
|
이산적 특성 예측 잠재 구매자 목록에 있는 고객에게 좋은 잠재 고객 또는 가난한 잠재 고객으로 플래그를 지정합니다. 다음 6개월 이내에 서버가 실패할 확률을 계산합니다. 환자 결과를 분류하고 관련 요인을 탐색합니다. |
Microsoft 의사 결정 트리 알고리즘 Microsoft Naive Bayes 알고리즘 Microsoft 클러스터링 알고리즘 Microsoft 신경망 알고리즘 |
|
연속 특성 예측 내년 매출을 예측합니다. 과거 기록 및 계절적 추세를 고려하여 사이트 방문자를 예측합니다. 인구 통계학적 특성에 따라 위험 점수를 생성합니다. |
Microsoft 의사 결정 트리 알고리즘 Microsoft 시계열 알고리즘 Microsoft 선형 회귀 알고리즘 |
|
시퀀스 예측 회사의 웹 사이트에 대한 클릭 스트림 분석을 수행합니다. 서버 오류로 이어지는 요인을 분석합니다. 외래 환자 방문 중에 일련의 활동을 캡처하고 분석하여 일반적인 활동에 대한 모범 사례를 작성합니다. |
Microsoft 시퀀스 클러스터링 알고리즘 |
|
트랜잭션에서 공통 항목 그룹 찾기 시장 바구니 분석을 사용하여 제품 배치를 확인합니다. 구매를 위해 고객에게 추가 제품을 제안합니다. 이벤트 방문자의 설문 조사 데이터를 분석하여 상관 관계가 있는 활동 또는 부스를 찾아 향후 활동을 계획합니다. |
Microsoft 연관 알고리즘 Microsoft 의사 결정 트리 알고리즘 |
|
유사한 항목의 그룹 찾기 인구 통계 및 동작과 같은 특성에 따라 환자 위험 프로필 그룹을 만듭니다. 사용자의 검색 및 구매 패턴을 분석합니다. 사용 특성이 비슷한 서버를 식별합니다. |
Microsoft 클러스터링 알고리즘 Microsoft 시퀀스 클러스터링 알고리즘 |
관련 내용
다음 표에서는 Analysis Services에서 제공되는 각 데이터 마이닝 알고리즘에 대한 학습 리소스에 대한 링크를 제공합니다.
관련 작업
| 항목 | 설명 |
|---|---|
| 데이터 마이닝 모델에서 사용하는 알고리즘 확인 | 마이닝 모델을 만드는 데 사용되는 매개 변수 쿼리 |
| 사용자 지정 Plug-In 알고리즘 만들기 | 플러그 인 알고리즘 |
| 알고리즘별 뷰어를 사용하여 모델 탐색 | 데이터 마이닝 모델 뷰어 |
| 제네릭 테이블 형식을 사용하여 모델의 콘텐츠 보기 | Microsoft 일반 콘텐츠 트리 뷰어를 사용하여 모델 찾아보기 |
| 데이터를 설정하고 알고리즘을 사용하여 모델을 만드는 방법에 대해 알아봅니다. |
마이닝 구조체(Analysis Services - 데이터 마이닝) 마이닝 모델(Analysis Services - 데이터 마이닝) |