다음을 통해 공유


Microsoft 선형 회귀 알고리즘 기술 참조

Microsoft 선형 회귀 알고리즘은 연속 특성 쌍을 모델링하는 데 최적화된 Microsoft 의사 결정 트리 알고리즘의 특수 버전입니다. 이 항목에서는 알고리즘의 구현에 대해 설명하고, 알고리즘의 동작을 사용자 지정하는 방법을 설명하고, 모델 쿼리에 대한 추가 정보에 대한 링크를 제공합니다.

선형 회귀 알고리즘 구현

Microsoft 의사 결정 트리 알고리즘은 선형 회귀, 분류 또는 연결 분석과 같은 많은 작업에 사용할 수 있습니다. 선형 회귀를 위해 이 알고리즘을 구현하기 위해 알고리즘의 매개 변수는 트리의 증가를 제한하고 모델의 모든 데이터를 단일 노드에 유지하도록 제어됩니다. 즉, 선형 회귀는 의사 결정 트리를 기반으로 하지만 트리에는 단일 루트만 포함되고 분기는 없습니다. 모든 데이터는 루트 노드에 상주합니다.

이를 위해 알고리즘의 MINIMUM_LEAF_CASES 매개 변수는 알고리즘이 마이닝 모델을 학습하는 데 사용하는 총 사례 수보다 크거나 같도록 설정됩니다. 이러한 방식으로 매개 변수를 설정하면 알고리즘은 분할을 만들지 않으므로 선형 회귀를 수행합니다.

회귀선을 나타내는 수식은 y = ax + b의 일반적인 형식을 사용하며 회귀 수식이라고 합니다. 변수 Y는 출력 변수를 나타내고, X는 입력 변수를 나타내고, a와 b는 조정 가능한 계수입니다. 완료된 마이닝 모델을 쿼리하여 회귀 수식에 대한 계수, 절편 및 기타 정보를 검색할 수 있습니다. 자세한 내용은 선형 회귀 모델 쿼리 예제를 참조하세요.

점수 매기기 메서드 및 기능 선택

모든 Analysis Services 데이터 마이닝 알고리즘은 자동으로 기능 선택을 사용하여 분석을 개선하고 처리 부하를 줄입니다. 선형 회귀에서 사용되는 기능 선택 메서드는 흥미점수입니다. 그것은 모델이 연속 열만 지원하기 때문입니다. 참조를 위해 다음 표에서는 선형 회귀 알고리즘 및 의사 결정 트리 알고리즘에 대한 기능 선택의 차이점을 보여 줍니다.

알고리즘 분석 방법 코멘트
선형 회귀 흥미롭기 점수 기본값.

의사 결정 트리 알고리즘에서 사용할 수 있는 다른 기능 선택 메서드는 불연속 변수에만 적용되므로 선형 회귀 모델에는 적용되지 않습니다.
의사 결정 트리 흥미롭기 점수

섀넌의 엔트로피

베이즈 방식의 K2 우선권 사용

이전에 유니폼을 입은 베이지안 디리히렛(기본값)
열에 이진이 아닌 연속 값이 포함된 경우 일관성을 보장하기 위해 모든 열에 대해 흥미롭기 점수가 사용됩니다. 그렇지 않으면 기본 또는 지정된 메서드가 사용됩니다.

의사 결정 트리 모델의 특성 선택을 제어하는 알고리즘 매개 변수는 MAXIMUM_INPUT_ATTRIBUTES 및 MAXIMUM_OUTPUT입니다.

선형 회귀 알고리즘 사용자 지정

Microsoft 선형 회귀 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 매개 변수를 지원합니다. 마이닝 모델 열 또는 마이닝 구조 열에 모델링 플래그를 설정하여 데이터가 처리되는 방식을 제어할 수도 있습니다.

알고리즘 매개 변수 설정

다음 표에서는 Microsoft 선형 회귀 알고리즘에 대해 제공되는 매개 변수를 나열합니다.

매개 변수 설명
최대 입력 속성 알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 입력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다.

기본값은 255입니다.
MAXIMUM_OUTPUT_ATTRIBUTES 알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 출력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다.

기본값은 255입니다.
FORCE_REGRESSOR 알고리즘에서 계산한 열의 중요도에 관계없이 알고리즘이 표시된 열을 회귀 변수로 사용하도록 합니다.

모델링 플래그

Microsoft 선형 회귀 알고리즘은 다음 모델링 플래그를 지원합니다. 마이닝 구조 또는 마이닝 모델을 만들 때 분석 중에 각 열의 값을 처리하는 방법을 지정하는 모델링 플래그를 정의합니다. 자세한 내용은 모델링 플래그(데이터 마이닝)를 참조하세요.

모델링 플래그 설명
NULL이 아님 (NOT NULL) 열에 null을 포함할 수 없음을 나타냅니다. 모델 학습 중에 Analysis Services가 null을 발견하면 오류가 발생합니다.

마이닝 구조 열에 적용됩니다.
회귀기 분석 중에 잠재적인 독립 변수로 처리되어야 하는 연속 숫자 값이 열에 포함되어 있음을 나타냅니다.

참고: 열을 회귀기로 플래그 지정해도 열이 최종 모델에서 회귀자로 사용되는 것은 아닙니다.

마이닝 모델 열에 적용됩니다.

선형 회귀 모델의 회귀 변수

선형 회귀 모델은 Microsoft 의사 결정 트리 알고리즘을 기반으로 합니다. 그러나 Microsoft 선형 회귀 알고리즘을 사용하지 않더라도 모든 의사 결정 트리 모델에는 연속 특성의 회귀를 나타내는 트리 또는 노드가 포함될 수 있습니다.

연속 열이 회귀를 나타내도록 지정할 필요가 없습니다. Microsoft 의사 결정 트리 알고리즘은 열에 REGRESSOR 플래그를 설정하지 않더라도 의미 있는 패턴을 사용하여 데이터 세트를 영역으로 분할합니다. 차이점은 모델링 플래그를 설정할 때 알고리즘이 a*C1 + b*C2 + ... 형식의 회귀 수식을 찾으려고 시도한다는 것입니다. 트리의 노드에 있는 패턴에 맞도록 합니다. 잔차의 합계가 계산되고 편차가 너무 크면 트리에서 분할이 강제로 적용됩니다.

예를 들어 Income 을 특성으로 사용하여 고객 구매 동작을 예측하고 열에서 REGRESSOR 모델링 플래그를 설정하는 경우 알고리즘은 먼저 표준 회귀 수식을 사용하여 Income 값에 맞도록 시도합니다. 편차가 너무 크면 회귀 수식이 포기되고 트리가 다른 속성을 기준으로 분할됩니다. 그런 다음 의사 결정 트리 알고리즘은 분할 후 각 분기의 수입에 회귀자를 맞추려고 합니다.

FORCED_REGRESSOR 매개 변수를 사용하여 알고리즘이 특정 회귀 변수를 사용하도록 보장할 수 있습니다. 이 매개 변수는 Microsoft 의사 결정 트리 및 Microsoft 선형 회귀 알고리즘과 함께 사용할 수 있습니다.

요구 사항

선형 회귀 모델에는 키 열, 입력 열 및 하나 이상의 예측 가능한 열이 포함되어야 합니다.

입력 열 및 예측 가능한 열

Microsoft 선형 회귀 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다. 마이닝 모델에서 사용할 때 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.

칼럼 내용 유형
입력 특성 연속, 순환, 키, 테이블 및 정렬됨
예측 가능한 특성 연속, 순환 및 순서 지정

비고

CyclicalOrdered 콘텐츠 형식이 지원되지만 알고리즘은 이러한 형식을 불연속 값으로 처리하며 특수한 처리를 수행하지 않습니다.

또한 참조하십시오

Microsoft 선형 회귀 알고리즘
선형 회귀 모델 쿼리 예제
선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)