다음을 통해 공유


포아송 회귀

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 파이프라인에서 포아송 회귀 모델을 만들 수 있습니다. 포아송 회귀는 숫자 값(일반적으로 개수)을 예측하기 위한 것입니다. 따라서 예측하려는 값이 다음 조건에 부합하는 경우에만 이 구성 요소를 사용하여 회귀 모델을 만들어야 합니다.

  • 응답 변수에 포아송 분포가 있습니다.

  • 개수는 음수일 수 없습니다. 음수 레이블과 함께 사용하려고 하면 메서드가 완전히 실패합니다.

  • 포아송 분포는 불연속 분포입니다. 따라서 이 메서드를 정수가 아닌 숫자와 함께 사용하는 것은 의미가 없습니다.

대상이 개수가 아니면 포아송 회귀가 적절한 방법이 아닐 수 있습니다. 디자이너에서 다른 회귀 분석 구성 요소를 사용해 봅니다.

회귀 메서드를 설정한 후에는 예측하려는 값의 예제가 포함된 데이터 세트를 사용하여 모델을 학습시켜야 합니다. 그런 다음 학습된 모델을 사용하여 예측을 수행할 수 있습니다.

포아송 회귀 분석에 대한 자세한 정보

포아송 회귀는 일반적으로 개수를 모델링하는 데 사용되는 특수한 유형의 회귀 분석입니다. 예를 들어 포아송 회귀는 다음 시나리오에서 유용합니다.

  • 비행기 항공편과 관련된 감기 수 모델링

  • 이벤트 중 응급 서비스 호출 수 예측

  • 프로모션 이후 고객 문의 수 프로젝팅

  • 대체 테이블 만들기

응답 변수에 포아송 분포가 있으므로 이 모델은 데이터 및 확률 분포에 대해 최소자승법 회귀 분석과는 다른 가정을 합니다. 따라서 포아송 모델은 다른 회귀 모델과 다르게 해석해야 합니다.

포아송 회귀 분석을 구성하는 방법

  1. 디자이너에서 포아송 회귀 분석 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 회귀 범주의 기계 학습 알고리즘에서 찾을 수 있습니다.

  2. 올바른 유형의 학습 데이터가 포함된 데이터 세트를 추가합니다.

    데이터 정규화를 사용하여 회귀 변수를 학습하기 전에 입력 데이터 세트를 정규화하는 것이 좋습니다.

  3. 포아송 회귀 분석 구성 요소의 오른쪽 창에서 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델 구성 방법을 알고 있는 경우 특정 값 세트를 인수로 제공합니다.

    • 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 매개 변수 스윕을 수행합니다. 트레이너는 사용자가 지정한 여러 값을 반복하여 최적의 구성을 찾습니다.

  4. 최적화 허용 오차: 최적화하는 동안 허용 오차 간격을 정의하는 값을 입력합니다. 값이 낮을수록 피팅이 느리고 정확해집니다.

  5. L1 정규화 가중치L2 정규화 가중치: L1 및 L2 정규화에 사용할 형식 값입니다. 정규화 는 학습 데이터와 독립적인 모델의 측면에 대한 알고리즘에 제약 조건을 추가합니다. 정규화는 일반적으로 과잉 맞춤을 방지하는 데 사용됩니다.

    • L1 정규화는 가능한 한 스파스인 모델을 사용하는 것이 목표인 경우에 유용합니다.

      L1 정규화는 학습자가 최소화하려는 손실 식에서 가중치 벡터의 L1 가중치를 빼서 수행됩니다. L1 표준은 0이 아닌 좌표의 수인 L0 표준에 대한 좋은 근사치입니다.

    • L2 정규화를 사용하면 가중치 벡터의 단일 좌표 크기가 너무 커지는 것을 방지합니다. L2 정규화는 전체 가중치가 작은 모델을 만드는 것이 목표인 경우에 유용합니다.

    이 구성 요소에서는 L1 및 L2 정규화 조합을 적용할 수 있습니다. L1 및 L2 정규화를 결합하여 매개 변수 값의 크기에 대해 페널티를 부과할 수 있습니다. 학습자는 손실을 최소화하는 절충에서 페널티를 최소화하려고 합니다.

    L1 및 L2 정규화에 대한 자세한 내용은 Machine Learning에 대한 L1 및 L2 정규화를 참조 하세요.

  6. L-BFGS의 메모리 크기: 모델 맞춤 및 최적화를 위해 예약할 메모리 양을 지정합니다.

    L-BFGS는 BFGS(Broyden–Fletcher–Goldfarb–Shanno) 알고리즘을 기반으로 하는 특정 최적화 방법입니다. 이 메서드는 제한된 양의 메모리(L)를 사용하여 다음 단계 방향을 계산합니다.

    이 매개 변수를 변경하면 다음 단계의 계산을 위해 저장된 이전 위치 및 그라데이션 수에 영향을 줄 수 있습니다.

  7. 학습 구성 요소 중 하나에 학습 데이터 세트 및 학습되지 않은 모델을 연결합니다.

    • 트레이너 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 구성 요소를 사용합니다.

    • 트레이너 모드 만들기매개 변수 범위로 설정한 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용합니다.

    Warning

    • 모델 학습매개 변수 범위를 전달하는 경우 매개 변수 범위 목록의 첫 번째 값만 사용합니다.

    • 매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수에 대한 설정 범위를 예상할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    • 매개 변수 범위 옵션을 선택하고 임의 매개 변수에 대해 단일 값을 입력하면 다른 매개 변수가 값 범위에서 변경되는 경우에도 지정한 단일 값이 스윕 전체에서 사용됩니다.

  8. 파이프라인을 제출합니다.

결과

학습 완료 후:

  • 학습된 모델의 스냅샷을 저장하려면 학습 구성 요소를 선택한 다음, 오른쪽 패널에서 출력+로그 탭으로 전환합니다. 데이터 세트 등록 아이콘을 클릭합니다. 저장된 모델을 구성 요소 트리에서 구성 요소로 찾을 수 있습니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.