포아송 회귀

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 파이프라인에서 포아송 회귀 모델을 만들 수 있습니다. 포아송 회귀 분석은 숫자 값(일반적으로 개수)을 예측하기 위한 것입니다. 따라서 예측하려는 값이 다음 조건에 부합하는 경우에만 이 구성 요소를 사용하여 회귀 모델을 만들어야 합니다.

  • 응답 변수에 포아송 분포가 있습니다.

  • 개수는 음수일 수 없습니다. 음의 레이블과 함께 사용하려고 하면 이 방법이 완전히 실패합니다.

  • 포아송 분포는 불연속 분포이므로 정수가 아닌 숫자로 이 방법을 사용하는 것은 의미가 없습니다.

대상이 개수가 아니면 포아송 회귀는 적절한 방법이 아닙니다. 디자이너에서 다른 회귀 분석 구성 요소를 사용해 봅니다.

회귀 방법을 설정한 후에는 예측하려는 값의 예가 포함된 데이터 세트를 사용하여 모델을 학습해야 합니다. 그러면 학습된 모델을 예측에 사용할 수 있습니다.

포아송 회귀 분석에 대한 자세한 정보

포아송 회귀는 보통 개수를 모델링하는 데 사용되는 특수 회귀 분석 유형입니다. 예를 들어 다음과 같은 시나리오에서 포아송 회귀를 사용하면 유용합니다.

  • 항공편과 관련된 콜드 횟수 모델링

  • 이벤트 동안 발생한 긴급 서비스 호출 수 예측

  • 프로모션 이후 고객 문의 횟수 프로젝션

  • 대체 테이블 만들기

응답 변수에 포아송 분포가 있으므로 이 모델은 데이터 및 확률 분포에 대해 최소자승법 회귀 분석과는 다른 가정을 합니다. 따라서 포아송 모델은 다른 회귀 모델과 다르게 해석해야 합니다.

포아송 회귀 분석을 구성하는 방법

  1. 디자이너에서 포아송 회귀 분석 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 회귀 범주의 Machine Learning 알고리즘에서 찾을 수 있습니다.

  2. 올바른 유형의 학습 데이터가 포함된 데이터 세트를 추가합니다.

    데이터 정규화를 사용하여 회귀 변수를 학습하기 전에 입력 데이터 세트를 정규화하는 것이 좋습니다.

  3. 포아송 회귀 분석 구성 요소의 오른쪽 창에서 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델 구성 방법을 알고 있는 경우 특정 값 세트를 인수로 제공합니다.

    • 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 매개 변수 스윕을 수행합니다. 트레이너는 최적 구성을 찾기 위해 지정된 여러 값을 반복합니다.

  4. 최적화 허용 오차: 최적화하는 동안 허용 오차 간격을 정의하는 값을 입력합니다. 값이 작을수록는 속도는 느려지고 맞춤은 더 정확해집니다.

  5. L1 정규화 가중치L2 정규화 가중치: L1 및 L2 정규화에 사용할 값을 입력합니다. 정규화를 통해 학습 데이터와 독립적인 모델의 요소에 관한 알고리즘에 제약 조건을 추가합니다. 과잉 맞춤을 방지하려는 경우에 일반적으로 정규화를 사용합니다.

    • 모델의 스파스 수준을 최대화하려는 경우에는 L1 정규화가 유용합니다.

      학습자가 최소화하려는 손실 식에서 가중치 벡터의 L1 가중치를 빼는 방식으로 L1 정규화를 수행합니다. L1 표준은 0이 아닌 좌표의 수인 L0 표준에 대한 적절한 근사치입니다.

    • L2 정규화를 사용하면 가중치 벡터에 있는 단일 좌표의 크기가 너무 커지지 않게 합니다. L2 정규화는 전체 가중치가 작은 모델을 목표로 하는 경우 유용합니다.

    이 구성 요소에서는 L1 및 L2 정규화 조합을 적용할 수 있습니다. L1 및 L2 정규화를 결합하면 매개 변수 값 크기에 대한 페널티를 적용할 수 있습니다. 학습자는 페널티를 최소화하려고 하며, 이 과정에서 손실도 최소화됩니다.

    L1 및 L2 정규화에 대한 자세한 내용은 Machine Learning의 L1 및 L2 정규화를 참조하세요.

  6. L-BFGS의 메모리 크기: 모델 맞춤과 최적화를 위해 예약할 메모리 양을 지정합니다.

    L-BFGS는 BFGS(Broyden–Fletcher–Goldfarb–Shanno) 알고리즘을 기반으로 하는 특정 최적화 방법입니다. 이 방법은 제한된 양의 메모리(L)를 사용하여 다음 단계 방향을 계산합니다.

    이 매개 변수를 변경하면 다음 단계 계산을 위해 저장되는 이전 위치 및 경사 수에 영향을 줄 수 있습니다.

  7. 학습 구성 요소 중 하나에 학습 데이터 세트 및 학습되지 않은 모델을 연결합니다.

    • 트레이너 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 구성 요소를 사용합니다.

    • 트레이너 모드 만들기매개 변수 범위로 설정한 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용합니다.

    경고

    • 모델 학습에 매개 변수 범위를 전달하면 매개 변수 범위 목록의 첫 번째 값만 사용됩니다.

    • 매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수에 대한 설정 범위를 예상할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    • 매개 변수 범위 옵션을 선택하고 매개 변수에 단일 값을 입력하는 경우 다른 매개 변수가 값 범위에서 변경되더라도 지정한 단일 값은 스윕 전체에서 사용됩니다.

  8. 파이프라인을 제출합니다.

결과

학습 완료 후 다음이 수행됩니다.

  • 학습된 모델의 스냅샷을 저장하려면 학습 구성 요소를 선택한 다음, 오른쪽 패널에서 출력+로그 탭으로 전환합니다. 데이터 세트 등록 아이콘을 클릭합니다. 저장된 모델을 구성 요소 트리에서 구성 요소로 찾을 수 있습니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.