2클래스 의사 결정 포리스트 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 의사 결정 포리스트 알고리즘을 기반으로 기계 학습 모델을 만듭니다.

의사 결정 포리스트는 고속 지도 앙상블 모델입니다. 이 구성 요소는 최대 2개의 결과를 포함하는 대상을 예측하려는 경우에 적합합니다.

의사 결정 포리스트의 이해

이 의사 결정 포리스트 알고리즘은 분류 작업을 위한 앙상블 학습 방법입니다. 앙상블 방법은 단일 모델에 의존하는 대신 여러 관련 모델을 만들고 어떤 방식으로든 결합하면 더 나은 결과와 더 일반화된 모델을 얻을 수 있다는 일반 원칙을 기반으로 합니다. 일반적으로 앙상블 모델은 단일 의사 결정 트리에 비해 적용 범위가 넓고 정확도가 높습니다.

여러 가지 방법으로 개별 모델을 만들고 앙상블에서 결합할 수 있습니다. 의사 결정 포리스트의 특정 구현은 여러 의사 결정 트리를 빌드한 다음, 가장 인기 있는 출력 클래스에서 투표하는 방식으로 작동합니다. 투표는 앙상블 모델에서 결과를 생성하는 비교적 잘 알려진 방법 중 하나입니다.

  • 전체 데이터 세트를 사용하여 많은 개별 분류 트리가 만들어지지만, 시작점(일반적으로 임의)은 다릅니다. 이는 개별 의사 결정 트리에서 데이터 또는 기능 중 일부만을 임의로 사용할 수 있는 랜덤 포리스트 방식과는 다릅니다.
  • 의사 결정 포리스트 트리의 각 트리는 레이블의 정규화되지 않은 빈도 히스토그램을 출력합니다.
  • 집계 프로세스는 이러한 히스토그램의 합계를 계산하고 결과를 정규화하여 각 레이블에 대한 ‘확률’을 가져옵니다.
  • 앙상블의 최종 결정에서 예측 신뢰도가 높은 트리에 더 큰 가중치가 주어집니다.

일반적으로 의사 결정 트리는 분류 작업에 많은 이점이 있습니다.

  • 의사 결정 트리는 비선형 의사 결정 경계를 캡처할 수 있습니다.
  • 계산 및 메모리 사용에 효율적이므로 많은 데이터를 학습하고 예측할 수 있습니다.
  • 기능 선택은 학습 및 분류 프로세스에 통합되어 있습니다.
  • 트리는 노이즈가 있는 데이터와 많은 기능을 수용할 수 있습니다.
  • 트리는 비파라메트릭 모델이며 이는 다양한 방식으로 분포된 데이터를 처리할 수 있음을 의미합니다.

그러나 단순한 의사 결정 트리는 데이터에 대해 과잉 맞춤되어 트리 앙상블보다 일반화 가능성이 떨어질 수 있습니다.

자세한 내용은 의사 결정 포리스트를 참조하세요.

구성 방법

  1. Azure Machine Learning에서 파이프라인에 2클래스 의사 결정 포리스트 구성 요소를 추가하고 구성 요소의 속성 창을 엽니다.

    Machine Learning 아래에서 해당 구성 요소를 찾을 수 있습니다. 초기화분류를 차례로 확장합니다.

  2. 재샘플링 방법의 경우 개별 트리를 만드는 데 사용되는 방법을 선택합니다. 모음 만들기 또는 복제를 선택할 수 있습니다.

    • 모음 만들기: 모음 만들기를 ‘부트스트랩 집계’라고도 합니다. 이 방법에서는 원본 데이터 세트의 크기가 될 때까지 원본 데이터 세트를 임의로 샘플링하여 만든 새 샘플에서 각 트리가 성장하도록 합니다.

      모델의 출력은 집계의 한 가지 형식인 ‘투표’로 결합됩니다. 분류 의사 결정 포리스트의 각 트리는 레이블의 정규화되지 않은 빈도 히스토그램을 출력합니다. 집계는 이러한 히스토그램의 합계를 계산하고 정규화하여 각 레이블에 대한 ‘확률’을 가져옵니다. 이러한 방식으로 앙상블의 최종 결정에서 예측 신뢰도가 높은 트리에 더 높은 가중치가 주어집니다.

      자세한 내용은 부트스트랩 집계에 대한 Wikipedia 항목을 참조하세요.

    • 복제: 복제에서 각 트리는 정확히 동일한 입력 데이터에 대해 학습됩니다. 각 트리 노드에 사용되는 분할 조건자의 결정은 임의로 유지되며 트리는 다양합니다.

  3. 트레이너 모드 만들기 옵션을 설정하여 모델을 학습시키려는 방법을 지정합니다.

    • 단일 매개 변수: 모델을 어떻게 구성하려는지 아는 경우 특정 값 집합을 인수로 제공할 수 있습니다.

    • 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 최적의 매개 변수를 찾을 수 있습니다. 사용자는 특정 범위의 값을 제공하고 트레이너는 여러 설정 조합을 반복하여 최상의 결과를 생성하는 값의 조합을 결정합니다.

  4. 의사 결정 트리 수에 앙상블에서 만들 수 있는 최대 의사 결정 트리 수를 입력합니다. 더 많은 의사 결정 트리를 만들면 적용 범위가 확대될 수 있지만 학습 시간이 늘어나게 됩니다.

    참고

    값을 1로 설정하는 경우. 그러나 하나의 트리(초기 매개 변수 세트가 있는 트리)만 생성할 수 있으며 추가 반복은 수행되지 않습니다.

  5. 의사 결정 트리의 최대 깊이의 경우 모든 의사 결정 트리의 최대 깊이를 제한하는 숫자를 입력합니다. 트리의 수준을 늘리면 정밀도는 높아질 수 있지만 학습 시간이 더 길어지고 과잉 맞춤이 발생할 수 있습니다.

  6. 리프 노드당 최소 샘플 수는 트리에서 터미널 노드(리프)를 만드는 데 필요한 최소 사례 수를 지정합니다.

    이 값을 늘려 새 규칙을 작성하기 위한 임계값을 늘립니다. 예를 들어, 기본값이 1이면 단일 사례만으로도 새 규칙을 하나 작성할 수 있습니다. 값을 5로 늘리면 학습 데이터에 동일한 조건을 만족하는 사례가 다섯 개 이상 있어야 합니다.

  7. 범주 기능에 대해 알 수 없는 값 허용 옵션을 선택하여 학습 또는 유효성 검사 세트에 알 수 없는 값에 대한 그룹을 만듭니다. 알려진 값에 대해서는 모델의 정확도가 떨어질 수 있지만 새 (알 수 없는) 값은 더 잘 예측할 수 있습니다.

    선택을 취소하면 모델에서 학습 데이터에 포함된 값만 수락할 수 있습니다.

  8. 레이블이 지정된 데이터 세트를 연결하고 모델을 학습시킵니다.

    • 트레이너 모드 만들기단일 매개 변수로 설정하는 경우 태그가 지정된 데이터 세트와 모델 학습 구성 요소를 연결합니다.

    • 트레이너 모드 만들기매개 변수 범위로 설정하는 경우 태그가 지정된 데이터 세트를 연결하고 모델 하이퍼 매개 변수 조정을 사용하여 모델을 학습시킵니다.

    참고

    모델 학습에 매개 변수 범위를 전달하는 경우 단일 매개 변수 목록의 기본값만 사용합니다.

    매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수에 대한 설정 범위를 예상할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

    매개 변수 범위 옵션을 선택하고 임의 매개 변수의 단일 값을 입력하는 경우 다른 매개 변수가 값 범위에서 변경되더라도 지정한 단일 값은 스윕 전체에서 사용됩니다.

결과

학습 완료 후 다음이 수행됩니다.

  • 학습된 모델의 스냅샷을 저장하려면 출력 탭을 모델 학습 구성 요소의 오른쪽 패널에서 선택합니다. 데이터 세트 등록 아이콘을 선택하여 모델을 재사용 가능한 구성 요소로 저장합니다.

  • 모델을 채점에 사용하려면 모델 채점 구성 요소를 파이프라인에 추가합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.