2클래스 로지스틱 회귀 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 두 결과(두 개만 가능)를 예측하는 데 사용할 수 있는 로지스틱 회귀 분석 모델을 만듭니다.

로지스틱 회귀는 다양한 종류의 문제를 모델링하는 데 사용되는 잘 알려진 통계 기법입니다. 이 알고리즘은 감독 학습 방법이므로 모델을 학습하기 위한 결과가 이미 포함된 데이터 세트를 제공해야 합니다.

로지스틱 회귀 정보

로지스틱 회귀는 결과의 확률을 예측하는 데 사용되는 통계에서 잘 알려진 방법이며 분류 작업에 특히 인기가 있습니다. 알고리즘은 데이터를 로지스틱 함수에 맞추는 방법으로 이벤트 발생 확률을 예측합니다.

이 구성 요소에서 분류 알고리즘은 이분 또는 이진 변수에 최적화됩니다. 여러 결과를 분류해야 하는 경우 다중 클래스 로지스틱 회귀 분석 구성 요소를 사용합니다.

구성 방법

이 모델을 학습하려면 레이블 또는 클래스 열이 포함된 데이터 세트를 제공해야 합니다. 이 구성 요소는 2클래스 문제에 적합하기 때문에 레이블 또는 클래스 열에는 정확히 두 개의 값이 포함되어야 합니다.

예를 들어 레이블 열은 가능한 값이 "예" 또는 "아니요"인 [Voted]일 수 있습니다. 또는 가능한 값이 “높음” 또는 “낮음”인 [크레딧 위험]일 수도 있습니다.

  1. 2클래스 로지스틱 회귀 분석 구성 요소를 파이프라인에 추가합니다.

  2. 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델을 어떻게 구성하려는지 아는 경우 특정 값 세트를 인수로 제공할 수 있습니다.

    • 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 최적의 매개 변수를 찾을 수 있습니다. 일부 값 범위를 제공하고 트레이너는 설정의 여러 조합을 반복하여 최상의 결과를 생성하는 값의 조합을 결정합니다.

  3. 최적화 허용 오차의 경우 모델을 최적화할 때 사용할 임계값을 지정합니다. 반복 간의 개선 사항이 지정된 임계값 아래로 떨어지면 알고리즘이 솔루션에 수렴된 것으로 간주되고 학습이 중지됩니다.

  4. L1 정규화 가중치L2 정규화 가중치의 경우 정규화 매개 변수 L1 및 L2에 사용할 값을 입력합니다. 둘 다에 0이 아닌 값이 권장됩니다.
    정규화 는 극단적인 계수 값으로 모델에 불이익을 주면 과잉 맞춤을 방지하는 방법입니다. 정규화는 계수 값과 연결된 페널티를 가설의 오류에 추가하여 작동합니다. 따라서 극한 계수 값이 있는 정확한 모델은 더 많은 불이익을 주지만 더 보수적인 값이 있는 덜 정확한 모델은 더 적은 불이익을 받을 수 있습니다.

    L1 및 L2 정규화에는 다양한 효과와 사용이 있습니다.

    • L1은 스파스 모델에 적용할 수 있으며, 이는 고차원 데이터로 작업할 때 유용합니다.

    • 반면 L2 정규화는 스파스가 아닌 데이터에 적합합니다.

    이 알고리즘은 L1 및 L2 정규화 값의 선형 조합을 지원합니다. 즉, 정규 x = L1y = L2ax + by = c 화 용어의 선형 범위를 정의합니다.

    참고 항목

    L1 및 L2 정규화에 대해 자세히 알아보고 싶으신가요? 다음 Machine Learning용 L1 및 L2 정규화 문서에서는 L1 및 L2 정규화가 어떻게 다르고, 로지스틱 회귀 분석 및 신경망 모델에 대한 코드 샘플을 사용하여 모델 맞춤에 어떻게 영향을 주는지에 대해 설명합니다.

    L1 및 L2 용어의 다양한 선형 조합은 로지스틱 회귀 모델(예 : 탄력적 순 정규화)을 위해 고안되었습니다. 이러한 조합을 참조하여 모델에 효과적인 선형 조합을 정의하는 것이 좋습니다.

  5. L-BFGS용 메모리 크기의 경우, L-BFGS 최적화에 사용할 메모리 양을 지정합니다.

    L-BFGS는 "제한된 메모리 브로이든 플레처-골드파브-샨노"를 의미합니다. 매개 변수 추정에 널리 사용되는 최적화 알고리즘입니다. 이 매개 변수는 다음 단계의 계산을 위해 저장할 이전 위치 및 그라데이션의 수를 나타냅니다.

    이 최적화 매개 변수는 다음 단계 및 방향을 계산하는 데 사용되는 메모리 양을 제한합니다. 메모리를 적게 지정할수록 학습 속도가 빨라지지만 정확도는 낮아집니다.

  6. 난수 시드의 경우 정수 값을 입력합니다. 동일한 파이프라인의 여러 실행에서 결과를 재현할 수 있도록 하려면 시드 값을 정의하는 것이 중요합니다.

  7. 레이블이 지정된 데이터 세트를 파이프라인에 추가하고 모델을 학습시킵니다.

    • 트레이너 모드 만들기단일 매개 변수로 설정하는 경우 태그가 지정된 데이터 세트와 모델 학습 구성 요소를 연결합니다.

    • 트레이너 만들기 모드를 매개 변수 범위설정하는 경우 태그가 지정된 데이터 세트를 연결하고 모델 하이퍼 매개 변수 조정을 사용하여 모델을 학습시킵니다.

    참고 항목

    모델 학습매개 변수 범위를 전달하는 경우 단일 매개 변수 목록의 기본값만 사용합니다.

    매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수의 설정 범위를 예상할 때 해당 값을 무시하고 학습자의 기본값을 사용합니다.

    매개 변수 범위 옵션을 선택하고 임의 매개 변수에 대해 단일 값을 입력하면 다른 매개 변수가 값 범위에서 변경되는 경우에도 지정한 단일 값이 스윕 전체에서 사용됩니다.

  8. 파이프라인을 제출합니다.

결과

학습 완료 후:

  • 새 데이터에 대한 예측을 만들려면 학습된 모델 및 새 데이터를 모델 점수 매기기 구성 요소의 입력으로 사용합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.