빠른 포리스트 분위수 회귀

이 문서에서는 Azure Machine Learning 디자이너의 모듈에 대해 설명합니다.

이 구성 요소를 사용하여 파이프라인에서 빠른 포리스트 분위수 회귀 모델을 만듭니다. 빠른 포리스트 분위수 회귀는 단일 평균 예측 값을 가져오는 대신 예측 값의 분포에 대해 자세히 이해하려는 경우에 유용합니다. 이 메서드에는 다음을 비롯한 많은 애플리케이션이 있습니다.

  • 가격 예측

  • 학생 성과 예측 또는 자식 발달을 평가하기 위한 성장 차트 적용

  • 변수 간에 약한 관계만 있는 경우 예측 관계 검색

이 회귀 알고리즘은 감독 학습 방법이므로 레이블 열을 포함하는 태그가 지정된 데이터 세트가 필요합니다. 회귀 알고리즘이므로 레이블 열에는 숫자 값만 포함되어야 합니다.

분위수 회귀에 대한 자세한 정보

회귀에는 여러 가지 유형이 있습니다. 간단히 말해서 회귀는 숫자 벡터로 표현된 대상에 모델을 맞추는 것입니다. 그러나 통계학자들은 회귀를 위한 점점 더 진보된 방법을 개발하고 있습니다.

분위수의 가장 간단한 정의는 데이터 집합을 같은 크기의 그룹으로 나누는 값입니다. 따라서 분위수 값은 그룹 간의 경계를 표시합니다. 통계적으로 말하면, 분위수는 임의 변수의 CDF(누적 분포 함수)의 역함수에서 정기적으로 가져온 값입니다.

선형 회귀 모델은 단일 예측값을 사용하여 숫자 변수의 값을 예측하려고 시도하는 반면 평균은 대상 변수의 범위 또는 전체 분포를 예측해야 하는 경우가 있습니다. 이러한 목적을 위해 Bayesian 회귀 및 분위수 회귀와 같은 기술이 개발되었습니다.

분위수 회귀는 예측 값의 분포를 파악하는 데 도움이 됩니다. 이 구성 요소에서 사용된 것과 같은 트리 기반 분위수 회귀 모델의 경우 파라메트릭이 아닌 분포를 예측하는 데 사용할 수 있다는 추가적인 이점도 제공합니다.

빠른 포리스트 분위수 회귀를 구성하는 방법

  1. 디자이너에서 빠른 포리스트 분위수 회귀 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 회귀 범주의 기계 학습 알고리즘에서 찾을 수 있습니다.

  2. 빠른 포리스트 분위수 회귀 구성 요소의 오른쪽 창에서 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키는 방법을 지정합니다.

    • 단일 매개 변수: 모델 구성 방법을 알고 있는 경우 특정 값 세트를 인수로 제공합니다. 모델을 학습하는 경우에는 모델 학습을 사용합니다.

    • 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 매개 변수 스윕을 수행합니다. 트레이너는 사용자가 지정한 여러 값을 반복하여 최적의 구성을 찾습니다.

  3. 트리 수, 앙상블에서 만들 수 있는 최대 트리 수를 입력합니다. 더 많은 트리를 만드는 경우 일반적으로 더 높은 정확도로 이어지지만 학습 시간이 길어집니다.

  4. 모든 트리에서 만들 수 있는 최대 잎 수 또는 터미널 노드를 입력하는 리프 수입니다.

  5. 리프를 구성하는 데 필요한 최소 학습 인스턴스 수를 지정하고 트리에서 터미널 노드(리프)를 만드는 데 필요한 최소 예제 수를 지정합니다.

    이 값을 늘리면 새 규칙을 만들기 위한 임계값이 증가합니다. 예를 들어 기본값이 1이면 단일 사례라도 새 규칙을 만들 수 있습니다. 값을 5로 늘리면 학습 데이터에 동일한 조건을 충족하는 5개 이상의 사례가 포함되어야 합니다.

  6. 분수를 배깅하고 각 분위수 그룹을 빌드할 때 사용할 샘플의 비율을 나타내는 0에서 1 사이의 숫자를 지정합니다. 샘플은 대체를 사용하여 임의로 선택됩니다.

  7. 분할 분수, 트리의 각 분할에 사용할 기능의 비율을 나타내는 0에서 1 사이의 숫자를 입력합니다. 사용되는 기능은 항상 임의로 선택됩니다.

  8. 예상할 분위수는 모델이 예측을 학습하고 만들 수 있도록 세미콜론으로 구분된 분위수 목록을 입력합니다.

    예를 들어 분위수를 예측하는 모델을 빌드하려면 0.25; 0.5; 0.75를 입력합니다.

  9. 필요에 따라 난수 시드 값을 입력하여 모델에서 사용하는 난수 생성기를 시드합니다. 기본값은 0입니다. 즉, 임의 시드가 선택됩니다.

    동일한 데이터에서 연속 실행에서 결과를 재현해야 하는 경우 값을 제공해야 합니다.

  10. 학습 구성 요소 중 하나에 학습 데이터 세트 및 학습되지 않은 모델을 연결합니다.

    • 트레이너 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 구성 요소를 사용합니다.

    • 트레이너 모드 만들기매개 변수 범위로 설정한 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용합니다.

    Warning

    • 모델 학습매개 변수 범위를 전달하는 경우 매개 변수 범위 목록의 첫 번째 값만 사용합니다.

    • 매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수에 대한 설정 범위를 예상할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    • 매개 변수 범위 옵션을 선택하고 임의 매개 변수에 대해 단일 값을 입력하면 다른 매개 변수가 값 범위에서 변경되는 경우에도 지정한 단일 값이 스윕 전체에서 사용됩니다.

  11. 파이프라인을 제출합니다.

결과

학습 완료 후:

  • 학습된 모델의 스냅샷을 저장하려면 학습 구성 요소를 선택한 다음, 오른쪽 패널에서 출력+로그 탭으로 전환합니다. 데이터 세트 등록 아이콘을 클릭합니다. 저장된 모델을 구성 요소 트리에서 구성 요소로 찾을 수 있습니다.

평가 메트릭

모델 평가 구성 요소를 사용하여 학습된 모델을 평가할 수 있습니다. 빠른 포리스트 분위수 회귀의 경우 메트릭은 다음과 같습니다.

  • 분위수 손실: 모델의 특정 분위수에 대한 오류의 측정값입니다.
  • 평균 분위수 손실: 모델에 고려된 모든 분위수에 대한 분위수 손실 값의 평균일 뿐입니다. 모든 분위수에서 모델이 얼마나 잘 수행되는지에 대한 전반적인 측정값을 제공합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.