Microsoft 선형 회귀 알고리즘
Microsoft 선형 회귀 알고리즘은 Microsoft 의사결정 트리 알고리즘이 변형된 것으로 MINIMUM_LEAF_CASES 매개 변수가 알고리즘에서 마이닝 모델 성향 습득에 사용하는 데이터 집합의 총 사례 수보다 크거나 같게 설정됩니다. 이 매개 변수를 이런 방식으로 설정하면 알고리즘에서 분할을 만들지 않으므로 선형 회귀가 수행됩니다.
선형 회귀를 사용하여 두 연속 열 간의 관계를 확인할 수 있습니다. 이 관계는 데이터 계열을 가장 잘 나타내는 선에 대한 수식 형식을 사용합니다. 예를 들어 다음 다이어그램의 선은 데이터를 가장 잘 나타내는 선형 표시입니다.
다이어그램의 선을 나타내는 수식은 일반적으로 y = ax + b 형식을 사용하며 회귀 수식이라고도 합니다. 변수 Y는 출력 변수를 나타내고 X는 입력 변수를 나타내며 a와 b는 조정 가능한 계수입니다. 다이어그램의 각 데이터 요소에는 회귀선으로부터의 거리와 관련된 오류가 있습니다. 회귀 수식에서 계수 a와 b는 회귀선의 각도와 위치를 조정합니다. 요소와 관련된 오류 수의 합계가 가장 적은 수가 될 때까지 a와 b를 조정하여 회귀 수식을 얻을 수 있습니다.
알고리즘 사용
Microsoft 트리 뷰어를 사용하여 선형 회귀 마이닝 모델을 탐색할 수 있습니다.
선형 회귀 모델은 하나의 키 열, 입력 열, 하나 이상의 예측 가능한 열을 포함해야 합니다.
Microsoft 선형 회귀 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.
입력 열 내용 유형 |
Continuous ,Cyclical, Key, Table 및 Ordered |
예측 가능한 열 내용 유형 |
Continuous, Cyclical 및 Ordered |
모델링 플래그 |
NOT NULL 및 REGRESSOR |
모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft 선형 회귀 알고리즘은 다음 표에 나열된 추가 함수를 지원합니다.
|
모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.
Microsoft 선형 회귀 알고리즘은 마이닝 모델 결과 도출 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.
매개 변수 | 설명 |
---|---|
MAXIMUM_INPUT_ATTRIBUTES |
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 입력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다. 기본값은 255입니다. |
MAXIMUM_OUTPUT_ATTRIBUTES |
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 출력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다. 기본값은 255입니다. |
FORCED_REGRESSOR |
알고리즘에서 계산한 열의 중요도에 관계없이 알고리즘에서 표시된 열을 회귀자로 사용하도록 합니다. |
참고 항목
개념
데이터 마이닝 알고리즘
데이터 마이닝 마법사
데이터 마이닝에서 기능 선택
Microsoft 트리 뷰어를 사용하여 마이닝 모델 보기