Microsoft 로지스틱 회귀 알고리즘은 HIDDEN_NODE_RATIO 매개 변수가 0으로 설정된 Microsoft 신경망 알고리즘의 변형입니다. 이 설정은 숨겨진 계층을 포함하지 않으므로 로지스틱 회귀와 동일한 신경망 모델을 만듭니다.
Microsoft 로지스틱 회귀 알고리즘 구현
예측 가능한 열에 두 개의 상태만 포함되어 있지만, 예측 가능한 열에 특정 상태가 포함될 확률과 입력 열을 관련시키는 회귀 분석을 계속 수행하려고 합니다. 다음 다이어그램에서는 예측 가능한 열의 상태에 1과 0을 할당하고, 열에 특정 상태가 포함될 확률을 계산하고, 입력 변수에 대해 선형 회귀를 수행하는 경우 얻을 수 있는 결과를 보여 줍니다.
x축에는 입력 열의 값이 포함됩니다. y축에는 예측 가능한 열이 이 상태 또는 저 상태가 될 확률이 포함됩니다. 이 문제는 선형 회귀가 열의 최대값과 최소값인 경우에도 열을 0에서 1 사이로 제한하지 않는다는 것입니다. 이 문제를 해결하는 방법은 로지스틱 회귀를 수행하는 것입니다. 로지스틱 회귀 분석은 직선을 만드는 대신 최대 및 최소 제약 조건이 포함된 "S" 모양의 곡선을 만듭니다. 예를 들어 다음 다이어그램은 이전 예제에 사용된 것과 동일한 데이터에 대해 로지스틱 회귀를 수행하는 경우 달성할 결과를 보여 줍니다.
곡선이 1 이상 또는 0 이하로 진행되지 않는 방법을 확인합니다. 로지스틱 회귀를 사용하여 예측 가능한 열의 상태를 결정하는 데 중요한 입력 열을 설명할 수 있습니다.
기능 선택
기능 선택은 분석을 개선하고 처리 부하를 줄이기 위해 모든 Analysis Services 데이터 마이닝 알고리즘에서 자동으로 사용됩니다. 로지스틱 회귀 모델에서 기능 선택에 사용되는 메서드는 특성의 데이터 형식에 따라 달라집니다. 로지스틱 회귀는 Microsoft 신경망 알고리즘을 기반으로 하기 때문에 신경망에 적용되는 기능 선택 방법의 하위 집합을 사용합니다. 자세한 내용은 기능 선택(데이터 마이닝)을 참조하세요.
입력 점수 매기기
신경망 모델 또는 로지스틱 회귀 모델의 컨텍스트에서 점수를 매기는 것은 데이터에 있는 값을 동일한 배율을 사용하므로 서로 비교할 수 있는 값 집합으로 변환하는 프로세스를 의미합니다. 예를 들어 소득에 대한 입력 범위가 0에서 100,000까지인 반면 [자식 수]에 대한 입력 범위는 0에서 5까지라고 가정합니다. 이 변환 프로세스를 사용하면 값의 차이에 관계없이 각 입력의 중요도를 채점하거나 비교할 수 있습니다.
학습 집합에 표시되는 각 상태에 대해 모델은 입력을 생성합니다. 불연속 또는 불연속 입력의 경우 누락된 상태가 학습 집합에 한 번 이상 나타나는 경우 누락 상태를 나타내기 위해 추가 입력이 생성됩니다. 연속 입력의 경우 최대 두 개의 입력 노드가 생성됩니다: 학습 데이터에 누락된 값이 있는 경우 하나의 입력 노드가 생성되고, 모든 기존 값 또는 null이 아닌 값에 대해 또 다른 입력 노드가 생성됩니다. 각 입력은 z-score 정규화 메서드(x - μ)/StdDev를 사용하여 숫자 형식으로 크기가 조정됩니다.
z 점수 정규화 중에 전체 학습 집합을 통해 평균(μ) 및 표준 편차를 가져옵니다.
연속 값
값이 있습니다. (X - μ)/σ // X는 인코딩되는 실제 값입니다.
값이 없습니다. - μ/σ // 음수 mu를 시그마로 나눕니다.
불연속 값
μ = p - (상태의 이전 확률)
StdDev = sqrt(p(1-p))
값은 다음과 같습니다: (1 - μ)/σ//(하나 빼기 뮤를 시그마로 나눈 값)
값이 없습니다. (- μ)/σ// 음수 mu를 시그마로 나눕니다.
로지스틱 회귀 계수 이해
로지스틱 회귀를 수행하기 위한 통계 문헌에는 다양한 방법이 있지만 모든 방법의 중요한 부분은 모델의 적합도를 평가하는 것입니다. 다양한 적합성 통계가 제안되었으며, 그 중에서도 배당률 비율과 공변 패턴이 제안되었습니다. 모델의 적합도를 측정하는 방법에 대한 논의는 이 항목의 범위를 벗어납니다. 그러나 모델에서 계수의 값을 검색하고 이를 사용하여 고유한 맞춤 측정값을 디자인할 수 있습니다.
비고
로지스틱 회귀 모델의 일부로 생성된 계수는 확률 비율을 나타내지 않으므로 해석해서는 안 됩니다.
모델 그래프의 각 노드에 대한 계수는 해당 노드에 대한 입력의 가중 합계를 나타냅니다. 로지스틱 회귀 모델에서 숨겨진 계층은 비어 있습니다. 따라서 출력 노드에 저장되는 계수 집합은 하나뿐입니다. 다음 쿼리를 사용하여 계수 값을 검색할 수 있습니다.
SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23
각 출력 값에 대해 이 쿼리는 관련 입력 노드를 다시 가리키는 계수 및 ID를 반환합니다. 또한 출력 값과 절편이 포함된 행을 반환합니다. 각 입력 X에는 자체 계수(Ci)가 있지만 중첩된 테이블에는 다음 수식에 따라 계산된 "free" 계수(Co)도 포함됩니다.
F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0
활성화: exp(F(X)) / (1 + exp(F(X)) )
자세한 내용은 로지스틱 회귀 모델 쿼리 예제를 참조하세요.
로지스틱 회귀 알고리즘 사용자 지정
Microsoft 로지스틱 회귀 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 입력으로 사용되는 열에 모델링 플래그를 설정하여 모델의 동작을 수정할 수도 있습니다.
알고리즘 매개 변수 설정
다음 표에서는 Microsoft 로지스틱 회귀 알고리즘과 함께 사용할 수 있는 매개 변수에 대해 설명합니다.
HOLDOUT_PERCENTAGE 홀드아웃 오류를 계산하는 데 사용되는 학습 데이터 내의 사례 비율을 지정합니다. HOLDOUT_PERCENTAGE 마이닝 모델을 학습하는 동안 중지 조건의 일부로 사용됩니다.
기본값은 30입니다.
HOLDOUT_SEED는 홀드아웃 데이터를 임의로 결정할 때 의사 난수 생성기를 초기화하는 데 사용할 숫자를 지정합니다. HOLDOUT_SEED 0으로 설정된 경우 알고리즘은 마이닝 모델의 이름을 기반으로 시드를 생성하여 다시 처리하는 동안 모델 콘텐츠가 동일하게 유지되도록 합니다.
기본값은 0입니다.
MAXIMUM_INPUT_ATTRIBUTES 알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 입력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다.
기본값은 255입니다.
MAXIMUM_OUTPUT_ATTRIBUTES 알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 출력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다.
기본값은 255입니다.
MAXIMUM_STATES 알고리즘이 지원하는 최대 특성 상태 수를 지정합니다. 특성이 있는 상태 수가 최대 상태 수보다 큰 경우 알고리즘은 특성의 가장 인기 있는 상태를 사용하고 나머지 상태를 무시합니다.
기본값은 100입니다.
SAMPLE_SIZE 모델을 학습하는 데 사용할 사례 수를 지정합니다. 알고리즘 공급자는 이 숫자 또는 HOLDOUT_PERCENTAGE 매개 변수에 지정된 홀드아웃 백분율에 포함되지 않은 총 사례의 백분율(값이 더 작은 경우)을 사용합니다.
즉, HOLDOUT_PERCENTAGE 30으로 설정된 경우 알고리즘은 이 매개 변수의 값 또는 총 사례 수의 70%에 해당하는 값 중 더 작은 값을 사용합니다.
기본값은 10000입니다.
모델링 플래그
다음 모델링 플래그는 Microsoft 로지스틱 회귀 알고리즘에서 사용할 수 있습니다.
NOT NULL은 열에 null을 포함할 수 없음을 나타냅니다. 모델 학습 중에 Analysis Services가 null을 발견하면 오류가 발생합니다.
마이닝 구조 열에 적용됩니다.
MODEL_EXISTENCE_ONLY 열이 두 가지 가능한 상태를 갖는 것으로 처리됨을 의미합니다Existing. Missing null이 누락된 값입니다.
마이닝 모델 열에 적용됩니다.
요구 사항
로지스틱 회귀 모델에는 키 열, 입력 열 및 하나 이상의 예측 가능한 열이 포함되어야 합니다.
입력 열 및 예측 가능한 열
Microsoft 로지스틱 회귀 알고리즘은 다음 표에 나열된 특정 입력 열 콘텐츠 형식, 예측 가능한 열 콘텐츠 형식 및 모델링 플래그를 지원합니다. 마이닝 모델에서 사용할 때 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.
| 칼럼 | 내용 유형 |
|---|---|
| 입력 특성 | 연속적인, 이산적인, 이산화된, 키, 테이블 |
| 예측 가능한 특성 | 연속, 불연속, 불연속화 |
또한 참조하십시오
Microsoft 로지스틱 회귀 알고리즘선형 회귀 모델 쿼리 예제로지스틱 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Microsoft 신경망 알고리즘