다음을 통해 공유


Microsoft Naive Bayes 알고리즘 기술 참조

Microsoft Naive Bayes 알고리즘은 예측 모델링에 사용하기 위해 Microsoft SQL Server Analysis Services에서 제공하는 분류 알고리즘입니다. 이 알고리즘은 입력 열과 예측 가능한 열 간의 조건부 확률을 계산하고 열이 독립적이라고 가정합니다. 이러한 독립성 가정은 Naive Bayes라는 이름으로 이어집니다.

Microsoft Naive Bayes 알고리즘 구현

이 알고리즘은 다른 Microsoft 알고리즘보다 계산 성능이 떨어지므로 마이닝 모델을 신속하게 생성하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 데 유용합니다. 알고리즘은 입력 특성 값 및 출력 특성 값의 각 쌍을 고려합니다.

Bayes 정리의 수학 속성에 대한 설명은 이 설명서의 범위를 벗어날 수 있습니다. 자세한 내용은 " Learning Bayesian Networks: The Combination of Knowledge and Statistical Data"라는 Microsoft Research의 논문을 참조하세요.

모든 모델의 확률이 잠재적 누락 값을 고려하여 조정되는 방법에 대한 설명은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요.

기능 선택

Microsoft Naive Bayes 알고리즘은 자동 기능 선택을 수행하여 모델을 빌드할 때 고려되는 값의 수를 제한합니다. 자세한 내용은 기능 선택(데이터 마이닝)을 참조하세요.

알고리즘 분석 방법 코멘트
나이브 베이즈 (Naive Bayes) 섀넌의 엔트로피

베이즈 방식의 K2 우선권 사용

이전에 유니폼을 입은 베이지안 디리히렛(기본값)
Naive Bayes는 이산 또는 이산화된 특성만 허용하므로 흥미도 점수를 사용할 수 없습니다.

이 알고리즘은 처리 시간을 최소화하고 가장 중요한 특성을 효율적으로 선택하도록 설계되었습니다. 그러나 다음과 같이 매개 변수를 설정하여 알고리즘에서 사용하는 데이터를 제어할 수 있습니다.

  • 입력으로 사용되는 값을 제한하려면 MAXIMUM_INPUT_ATTRIBUTES 값을 줄입니다.

  • 모델에서 분석하는 특성 수를 제한하려면 MAXIMUM_OUTPUT_ATTRIBUTES 값을 줄입니다.

  • 하나의 특성에 대해 고려할 수 있는 값의 수를 제한하려면 MINIMUM_STATES 값을 줄입니다.

Naive Bayes 알고리즘 사용자 지정

Microsoft Naive Bayes 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 몇 가지 매개 변수를 지원합니다. 모델 열에 모델링 플래그를 설정하여 데이터 처리 방법을 제어하거나 마이닝 구조에 플래그를 설정하여 누락된 값 또는 null을 처리하는 방법을 지정할 수도 있습니다.

알고리즘 매개 변수 설정

Microsoft Naive Bayes 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 몇 가지 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수에 대해 설명합니다.

최대 입력 속성
알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 최대 입력 특성 수를 지정합니다. 이 값을 0으로 설정하면 입력 특성에 대한 기능 선택이 비활성화됩니다.

기본값은 255입니다.

MAXIMUM_OUTPUT_ATTRIBUTES
알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 출력 특성의 최대 수를 지정합니다. 이 값을 0으로 설정하면 출력 특성에 대한 기능 선택이 비활성화됩니다.

기본값은 255입니다.

최소 의존성 확률
입력 및 출력 특성 간의 최소 종속성 확률을 지정합니다. 이 값은 알고리즘에서 생성되는 콘텐츠의 크기를 제한하는 데 사용됩니다. 이 속성은 0에서 1로 설정할 수 있습니다. 값이 클수록 모델 콘텐츠의 특성 수가 줄어듭니다.

기본값은 0.5입니다.

MAXIMUM_STATES
알고리즘이 지원하는 특성 상태의 최대 수를 지정합니다. 특성이 있는 상태 수가 최대 상태 수보다 큰 경우 알고리즘은 특성의 가장 인기 있는 상태를 사용하고 나머지 상태를 누락된 상태로 처리합니다.

기본값은 100입니다.

모델링 플래그

Microsoft 의사 결정 트리 알고리즘은 다음 모델링 플래그를 지원합니다. 마이닝 구조 또는 마이닝 모델을 만들 때 분석 중에 각 열의 값을 처리하는 방법을 지정하는 모델링 플래그를 정의합니다. 자세한 내용은 모델링 플래그(데이터 마이닝)를 참조하세요.

모델링 플래그 설명
모델_존재_전용 열이 누락 및 기존 상태라는 두 가지 가능한 상태를 갖는 것으로 처리됨을 의미합니다. null이 누락된 값입니다.

마이닝 모델 열에 적용됩니다.
NULL이 아님 (NOT NULL) 열에 null을 포함할 수 없음을 나타냅니다. 모델 학습 중에 Analysis Services가 null을 발견하면 오류가 발생합니다.

마이닝 구조 열에 적용됩니다.

요구 사항

Naive Bayes 트리 모델에는 키 열, 하나 이상의 예측 가능한 특성 및 하나 이상의 입력 특성이 포함되어야 합니다. 어떤 특성도 연속적일 수 없습니다. 데이터에 연속 숫자 데이터가 포함되어 있으면 무시되거나 불연속화됩니다.

입력 열 및 예측 가능한 열

Microsoft Naive Bayes 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다. 마이닝 모델에서 사용할 때 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.

칼럼 내용 유형
입력 특성 순환, 불연속, 불연속화, 키, 테이블 및 순서 지정
예측 가능한 특성 순환, 불연속, 불연속화, 테이블 및 순서 지정

비고

주기적 및 순서가 지정된 콘텐츠 형식은 지원되지만 알고리즘은 이를 불연속 값으로 처리하며 특수한 처리를 수행하지 않습니다.

또한 참조하십시오

Microsoft Naive Bayes 알고리즘
Naive Bayes 모델 쿼리 예제
Naive Bayes 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)