2클래스 향상된 의사 결정 트리 구성 요소

아티클
06/01/2023

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

이 구성 요소를 사용하여 향상된 의사 결정 트리 알고리즘을 기반으로 하는 기계 학습 모델을 만들 수 있습니다.

승격된 의사 결정 트리는 두 번째 트리가 첫 번째 트리의 오류를 소정하고, 세 번째 트리가 첫 번째 및 두 번째 트리의 오류를 수정하는 방식의 앙상블 학습 방법입니다. 예측은 전체 트리의 앙상블을 기반으로 하여 예측을 수행합니다.

일반적으로 적절히 구성된 경우 승격된 의사 결정 트리는 다양한 기계 학습 작업에서 최상의 성능을 얻을 수 있는 가장 쉬운 방법입니다. 그러나 승격된 의사 결정 트리는 메모리를 많이 사용하는 학습자 중 하나이며 현재 구현에는 메모리의 모든 항목이 포함됩니다. 따라서 승격된 의사 결정 트리 모델은 일부 선형 학습자가 처리할 수 있는 큰 데이터 세트를 처리하지 못할 수 있습니다.

이 구성 요소는 LightGBM 알고리즘을 기반으로 합니다.

구성 방법

이 구성 요소는 학습되지 않은 분류 모델을 만듭니다. 분류는 지도 학습 방법이므로 모델을 학습시키려면 모든 행 값이 있는 레이블 열을 포함하는 ‘태그가 지정된 데이터 세트’가 필요합니다.

모델 학습을 사용하여 이러한 모델 유형을 학습시킬 수 있습니다.

Azure Machine Learning에서 향상된 의사 결정 트리 구성 요소를 파이프라인에 추가합니다.
트레이너 모드 만들기 옵션을 설정하여 모델을 학습시킬 방법을 지정합니다.
- 단일 매개 변수: 모델을 어떻게 구성하려는지 아는 경우 특정 값 집합을 인수로 제공할 수 있습니다.
- 매개 변수 범위: 최적의 매개 변수가 확실하지 않은 경우 모델 하이퍼 매개 변수 조정 구성 요소를 사용하여 최적의 매개 변수를 찾을 수 있습니다. 사용자는 특정 범위의 값을 제공하고 트레이너는 여러 설정 조합을 반복하여 최상의 결과를 생성하는 값의 조합을 결정합니다.
트리당 최대 리프 수의 경우 모든 트리에서 만들 수 있는 터미널 노드(리프)의 최대 수를 나타냅니다.

이 값을 늘리면 트리 크기가 커지고 정밀도는 높아질 수 있지만 학습 시간이 더 길어지고 과잉 맞춤이 발생할 수 있습니다.
리프 노드당 최소 샘플 수의 경우 트리에서 터미널 노드(리프)를 만드는 데 필요한 사례 수를 나타냅니다.

이 값을 늘려 새 규칙을 작성하기 위한 임계값을 늘립니다. 예를 들어, 기본값이 1이면 단일 사례만으로도 새 규칙을 하나 작성할 수 있습니다. 값을 5로 늘리면 학습 데이터에 동일한 조건을 만족하는 사례가 다섯 개 이상 있어야 합니다.
학습 속도의 경우 학습하는 동안 단계 크기를 정의하는 0에서 1 사이의 숫자를 입력합니다.

학습 속도는 학습자가 최적 솔루션에 얼마나 빠르게 또는 느리게 수렴하는지 결정합니다. 단계 크기가 너무 크면 최적 솔루션을 초과할 수 있습니다. 단계 크기가 너무 작으면 학습이 최적 솔루션으로 수렴하는 데 걸리는 시간이 길어집니다.
생성되는 트리 수의 경우 앙상블에 만들 의사 결정 트리의 총수를 나타냅니다. 추가 의사 결정 트리를 만들면 적용 범위가 확대될 수 있지만 학습 시간이 증가됩니다.

값을 1로 설정하면 하나의 트리(초기 매개 변수 세트가 있는 트리)만 생성되고 추가 반복은 수행되지 않습니다.
난수 시드의 경우 임의 시드 값으로 사용할 음수가 아닌 정수를 선택적으로 입력합니다. 시드를 지정하면 동일한 데이터와 매개 변수를 사용하는 실행에서 재현 가능성이 보장됩니다.

임의 시드는 기본적으로 0으로 설정되며 이는 시스템 클록에서 초기 시드 값을 가져온다는 것을 의미합니다. 임의 시드를 사용한 연속 실행의 결과는 달라질 수 있습니다.
모델을 학습시킵니다.
- 트레이너 모드 만들기를 단일 매개 변수로 설정하는 경우 태그가 지정된 데이터 세트와 모델 학습 구성 요소를 연결합니다.
- 트레이너 모드 만들기를 매개 변수 범위로 설정하는 경우 태그가 지정된 데이터 세트를 연결하고 모델 하이퍼 매개 변수 조정을 사용하여 모델을 학습시킵니다.
참고

모델 학습에 매개 변수 범위를 전달하는 경우 단일 매개 변수 목록의 기본값만 사용합니다.

매개 변수 값의 단일 집합을 모델 하이퍼 매개 변수 조정 구성 요소에 전달하는 경우 각 매개 변수에 대한 설정 범위를 예상할 때 해당 값을 무시하고 학습자에 대한 기본값을 사용합니다.

매개 변수 범위 옵션을 선택하고 임의 매개 변수의 단일 값을 입력하는 경우 다른 매개 변수가 값 범위에서 변경되더라도 지정한 단일 값은 스윕 전체에서 사용됩니다.

결과

학습 완료 후 다음이 수행됩니다.

학습된 모델의 스냅샷을 저장하려면 출력 탭을 모델 학습 구성 요소의 오른쪽 패널에서 선택합니다. 데이터 세트 등록 아이콘을 선택하여 모델을 재사용 가능한 구성 요소로 저장합니다.
모델을 채점에 사용하려면 모델 채점 구성 요소를 파이프라인에 추가합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.

2클래스 향상된 의사 결정 트리 구성 요소

구성 방법

결과

다음 단계

추가 리소스