데이터 마이닝에서 기능 선택
Microsoft SQL Server 2005 Analysis Services(SSAS) 에서 데이터 마이닝 모델을 작성할 때 모델 작성을 완료하기 전에는 어떤 정보가 필요한지 말하기 어렵지만 모델 작성에 필요한 양보다 많은 정보가 데이터 집합에 들어 있는 경우가 많습니다. 예를 들어 데이터 집합에 고객의 특성을 설명하는 열이 500개 있지만 특정 모델을 작성하는 데 50개의 열만 사용되는 경우가 있을 수 있습니다. 사용되지 않은 열은 모델의 출력에는 영향을 미치지 않지만 모델 처리 시간 및 모델 저장에 필요한 공간을 증가시킵니다. Microsoft 의 특정 알고리즘에서는 이 문제를 해결하기 위해 기능 선택을 구현합니다. 기능 선택은 데이터 집합에서 모델에 사용될 가능성이 가장 높은 특성을 자동으로 선택합니다. 다음은 기능 선택을 지원하는 알고리즘입니다.
- Naive Bayes
- 의사결정 트리
- 클러스터링
- 신경망
기능 선택은 알고리즘에 따라 입력 특성, 예측 가능한 특성 또는 열의 상태 수에서 작동합니다. 알고리즘 매개 변수 MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES 및 MAXIMUM_STATES를 사용하여 기능 선택 사용 시기를 제어할 수 있습니다. MAXIMUM_INPUT_ATTRIBUTES 매개 변수에서 지정한 수보다 더 많은 열이 모델에 있는 경우 알고리즘은 필요 없다고 판단되는 모든 열을 무시합니다. 마찬가지로 MAXIMUM_OUTPUT_ATTRIBUTES 매개 변수에서 지정한 수보다 더 많은 예측 가능한 열이 모델에 있는 경우 알고리즘은 필요 없다고 판단되는 모든 열을 무시합니다. MAXIMUM_STATES 매개 변수에서 지정한 수보다 더 많은 사례가 모델에 있으면 가장 인기가 없는 상태를 함께 그룹화하여 없는 것으로 처리합니다. 이러한 매개 변수 중 하나를 0으로 설정할 경우 기능 선택이 해제되고 처리 시간 및 성능에 영향을 미칩니다.
알고리즘이 선택한 입력 특성 및 상태만 모델 작성 프로세스에 포함되어 예측에 사용할 수 있습니다. 기능 선택에서 무시한 예측 가능한 열은 예측에 사용되지만 예측은 모델에 있는 글로벌 통계만 기준으로 합니다.
참고 항목
개념
데이터 마이닝 알고리즘
Microsoft 클러스터링 알고리즘
Microsoft 의사결정 트리 알고리즘
Microsoft Naive Bayes 알고리즘
Microsoft 신경망 알고리즘(SSAS)