다음을 통해 공유


메트릭을 사용하여 ML.NET 모델 평가

ML.NET 모델을 평가하는 데 사용되는 메트릭을 이해합니다.

평가 메트릭은 모델에서 수행하는 기계 학습 작업의 유형에만 적용됩니다.

예를 들어 분류 작업의 경우 예측 범주가 실제 범주와 얼마나 일치하는지 측정하여 모델을 평가합니다. 클러스터링의 경우 평가는 클러스터된 항목이 서로 얼마나 가까운지, 그리고 클러스터 간에 얼마나 많은 분리가 있는지를 기반으로 합니다.

이진 분류에 대한 평가 메트릭

지표 설명 살펴볼 항목
정확성 정확도 는 테스트 데이터 집합을 사용하는 올바른 예측의 비율입니다. 입력 샘플의 총 수에 대한 올바른 예측 수의 비율입니다. 각 클래스에 속하는 샘플 수가 비슷한 경우 잘 작동합니다. 1.00에 가까울수록 좋습니다. 그러나 정확히 1.00은 문제를 나타냅니다(일반적으로 레이블/대상 누출, 과잉 맞춤 또는 학습 데이터로 테스트). 테스트 데이터의 균형이 맞지 않는 경우(대부분의 인스턴스가 클래스 중 하나에 속하는 경우) 데이터 세트가 작거나 점수가 0.00 또는 1.00에 가까워지면 정확도가 실제로 분류자의 효과를 캡처하지 않으므로 추가 메트릭을 확인해야 합니다.
AUC aucROC 또는 곡선 아래의 영역은 실제 양성 비율과 가양성 비율을 비교하여 생성된 곡선 아래의 면적을 측정합니다. 1.00에 가까울수록 좋습니다. 모델이 허용되려면 0.50보다 커야 합니다. AUC가 0.50 이하인 모델은 쓸모가 없습니다.
AUCPR aucPR 또는 Precision-Recall 곡선 아래의 영역: 클래스가 불균형할 때 예측의 성공에 대한 유용한 측정값입니다(고도로 기울어진 데이터 세트). 1.00에 가까울수록 좋습니다. 1.00에 가까운 높은 점수는 분류자는 정확한 결과(높은 정밀도)를 반환하고 모든 긍정적인 결과의 대부분을 반환한다는 것을 보여 줍니다(높은 재현율).
F1 점수 F1 점수균형 잡힌 F 점수 또는 F 측정값이라고도 함. 정밀도와 재현율의 조화 평균입니다. F1 점수는 정밀도와 재현율 간의 균형을 찾으려는 경우에 유용합니다. 1.00에 가까울수록 좋습니다. F1 점수는 1.00에서 최고 점수, 0.00에서 최악의 점수에 도달합니다. 분류자 정확도를 알려줍니다.

이진 분류 메트릭에 대한 자세한 내용은 다음 문서를 참조하세요.

다중 클래스 분류 및 텍스트 분류에 대한 평가 메트릭

지표 설명 살펴볼 항목
마이크로 정확도 마이크로 평균 정확도 는 모든 클래스의 기여도를 집계하여 평균 메트릭을 계산합니다. 올바르게 예측된 인스턴스의 비율입니다. 마이크로 평균은 클래스 멤버 자격을 고려하지 않습니다. 기본적으로 모든 샘플 클래스 쌍은 정확도 메트릭에 동일하게 기여합니다. 1.00에 가까울수록 좋습니다. 다중 클래스 분류 작업에서 클래스 불균형이 있을 수 있다고 의심되는 경우(즉, 다른 클래스보다 한 클래스의 예제가 더 많을 수 있음) 매크로 정확도보다 마이크로 정확도가 더 좋습니다.
매크로 정확도 매크로 평균 정확도 는 클래스 수준의 평균 정확도입니다. 각 클래스의 정확도는 계산되고 매크로 정확도는 이러한 정확도의 평균입니다. 기본적으로 모든 클래스는 정확도 메트릭에 동일하게 기여합니다. 소수 클래스는 더 큰 클래스와 동일한 가중치를 부여합니다. 매크로 평균 메트릭은 데이터 세트에 포함된 해당 클래스의 인스턴스 수에 관계없이 각 클래스에 동일한 가중치를 부여합니다. 1.00에 가까울수록 좋습니다. 각 클래스에 대해 독립적으로 메트릭을 계산한 다음 평균을 사용합니다(따라서 모든 클래스를 동일하게 처리).
로그 손실 로그 손실은 예측 입력이 0.00에서 1.00 사이의 확률 값인 분류 모델의 성능을 측정합니다. 예측된 확률이 실제 레이블과 갈라짐에 따라 로그 손실이 증가합니다. 0.00에 가까울수록 좋습니다. 완벽한 모델은 로그 손실이 0.00입니다. 기계 학습 모델의 목표는 이 값을 최소화하는 것입니다.
Log-Loss 감소 로그 손실 감소 는 임의 예측보다 분류자의 이점으로 해석될 수 있습니다. -inf 및 1.00의 범위입니다. 여기서 1.00은 완벽한 예측이고 0.00은 평균 예측을 나타냅니다. 예를 들어 값이 0.20과 같으면 "올바른 예측의 확률이 임의 추측보다 20% 낫다"로 해석될 수 있습니다.

마이크로 정확도는 일반적으로 ML 예측의 비즈니스 요구 사항에 더 잘 맞습니다. 다중 클래스 분류 작업의 품질을 선택하기 위해 단일 메트릭을 선택하려는 경우 일반적으로 마이크로 정확도여야 합니다.

지원 티켓 분류 작업의 예: (들어오는 티켓을 지원 팀에 매핑)

  • 마이크로 정확도 - 들어오는 티켓이 올바른 팀으로 분류되는 빈도는 얼마나 됩니까?
  • 매크로 정확도 - 평균적인 팀의 경우, 들어오는 티켓이 해당 팀에 얼마나 자주 적합한가요?

이 예제에서는 매크로 정확도가 소규모 팀에 더 큰 비중을 두어 연간 10장의 티켓만 받는 소규모 팀이 연간 10,000개 티켓을 처리하는 대규모 팀과 같은 중요도로 취급됩니다. 이 경우 마이크로 정확도는 "내 티켓 라우팅 프로세스를 자동화하여 회사가 얼마나 많은 시간/돈을 절약할 수 있는지"의 비즈니스 필요성과 더 잘 연관됩니다.

다중 클래스 분류 메트릭에 대한 자세한 내용은 정밀도, 재현율 및 F 점수의 마이크로 평균 및 매크로 평균을 참조하세요.

회귀 및 권장 사항에 대한 평가 메트릭

회귀 및 권장 작업 모두 숫자를 예측합니다. 회귀의 경우 숫자는 입력 속성의 영향을 받는 출력 속성일 수 있습니다. 권장 사항의 경우 숫자는 일반적으로 등급 값(예: 1에서 5 사이) 또는 예/아니요 권장 사항(각각 1과 0으로 표시됨)입니다.

측정단위 설명 살펴볼 항목
R 제곱 R 제곱(R2) 또는 결정 계수 는 모델의 예측 능력을 -inf 1.00 사이의 값으로 나타냅니다. 1.00은 완벽한 적합성을 의미하며, 적합성은 임의로 나쁠 수 있으므로 점수가 음수가 될 수도 있습니다. 점수가 0.00이면 모델이 레이블의 예상 값을 추측하고 있습니다. 음수 R2 값은 맞춤이 데이터의 추세를 따르지 않고 모델이 임의 추측보다 더 나쁜 성능을 나타낸 것을 나타냅니다. 이는 비선형 회귀 모델 또는 제한된 선형 회귀에서만 가능합니다. R2는 실제 테스트 데이터 값이 예측 값과 얼마나 가까운지 측정합니다. 1.00에 가까울수록 품질이 향상되었습니다. 그러나 때로는 낮은 R 제곱 값(예: 0.50)이 완전히 정상이거나 시나리오에 충분할 수 있으며 높은 R 제곱 값이 항상 좋은 것은 아니며 의심스럽습니다.
절대 손실 MAE(절대 손실 또는 평균 절대 오차) 는 예측이 실제 결과와 얼마나 가까운지 측정합니다. 모델 오류는 예측된 레이블 값과 올바른 레이블 값 사이의 절대 거리인 모든 모델 오류의 평균입니다. 이 예측 오류는 테스트 데이터 집합의 각 레코드에 대해 계산됩니다. 마지막으로, 기록된 모든 절대 오류에 대해 평균 값이 계산됩니다. 0.00에 가까울수록 품질이 향상되었습니다. 평균 절대 오차는 측정되는 데이터와 동일한 배율을 사용합니다(특정 범위로 정규화되지 않음). 절대 손실, 제곱 손실 및 RMS 손실은 레이블 값 분포가 비슷한 동일한 데이터 세트 또는 데이터 세트에 대한 모델 간을 비교하는 데만 사용할 수 있습니다.
제곱 손실 MSD(평균 제곱 편차)라고도 하는 제곱 손실 또는 평균 제곱 오차(MSE)는 지점에서 회귀선까지의 거리를 가져와서(이러한 거리는 오류 E) 제곱하여 회귀선이 테스트 데이터 값 집합에 얼마나 가까운지 알려줍니다. 제곱은 더 큰 차이에 더 많은 무게를 제공합니다. 항상 음수가 아니고 0.00에 가까운 값이 더 좋습니다. 데이터에 따라 평균 제곱 오차에 대해 매우 작은 값을 가져오는 것은 불가능할 수 있습니다.
RMS 손실 RMS 손실 또는 RMSE(루트 평균 제곱 오차,RMSD(루트 평균 제곱 편차)라고도 함)는 모델이 예측한 값과 모델링 중인 환경에서 관찰된 값 간의 차이를 측정합니다. RMS 손실은 제곱 손실의 제곱근이며 레이블과 동일한 단위를 가지며, 절대 손실과 비슷하지만 더 큰 편차에 더 많은 가중치를 부여합니다. 루트 평균 제곱 오차는 일반적으로 기후학, 예측 및 회귀 분석에서 실험적 결과를 확인하는 데 사용됩니다. 항상 음수가 아니고 0.00에 가까운 값이 더 좋습니다. RMSD는 크기 조정에 따라 다르기 때문에 데이터 세트 간이 아니라 특정 데이터 세트에 대해 서로 다른 모델의 예측 오류를 비교하는 정확도 측정값입니다.

회귀 메트릭에 대한 자세한 내용은 다음 문서를 참조하세요.

클러스터링에 대한 평가 메트릭

측정단위 설명 살펴볼 항목
평균 거리 데이터 포인트와 할당된 클러스터의 중심 사이의 거리 평균입니다. 평균 거리는 클러스터 중심과 데이터 요소의 근접성을 측정한 것입니다. 이는 클러스터가 얼마나 '타이트'한지를 측정한 것입니다. 0에 가까운 값이 더 좋습니다. 평균 거리가 0에 가까울수록 데이터가 더 많이 클러스터됩니다. 그러나 클러스터 수가 증가하면 이 메트릭이 감소하고 극단적인 경우(각 고유 데이터 포인트가 자체 클러스터인 경우)는 0과 같습니다.
데이비스 불딘 인덱스 클러스터 내 거리와 클러스터 간 거리의 평균 비율입니다. 클러스터가 더 단단하고 클러스터가 더 멀리 떨어져 있으면 이 값이 낮아집니다. 0에 가까운 값이 더 좋습니다. 더 멀리 떨어져 있고 덜 분산된 클러스터는 더 나은 점수를 생성합니다.
정규화된 상호 정보 클러스터링 모델을 학습하는 데 사용되는 학습 데이터에 지상 진리 레이블(즉, 감독된 클러스터링)도 함께 제공되는 경우 사용할 수 있습니다. 정규화된 상호 정보 메트릭은 유사한 데이터 요소가 동일한 클러스터에 할당되고 서로 다른 데이터 요소가 다른 클러스터에 할당되는지 여부를 측정합니다. 정규화된 상호 정보는 0에서 1 사이의 값입니다. 1에 가까운 값이 더 좋습니다.

순위에 대한 평가 메트릭

측정단위 설명 살펴볼 항목
할인된 누적 혜택 할인된 누적 게인(DCG)은 순위 품질의 측정치입니다. 두 가지 가정에서 파생됩니다. 하나: 관련성이 높은 항목은 순위 순서에서 더 높게 표시할 때 더 유용합니다. 두 가지: 유용성은 관련성을 추적합니다. 즉, 관련성이 높을수록 항목이 더 유용합니다. 할인된 누적 이득은 순위 순서의 특정 위치에 대해 계산됩니다. 순위 인덱스의 로그로 나눈 관련성 채점의 합계를 관심 위치까지 합산합니다. $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$는 계산에 사용됩니다. 관련 등급은 순위 학습 알고리즘에 지상 진리 레이블로 제공됩니다. 순위 테이블의 각 위치에 대해 하나의 DCG 값이 제공되므로 할인된 누적 이득이라는 이름이 붙었습니다. 값이 높을수록 좋습니다.
정규화된 할인 누적 혜택 DCG를 정규화하면 다양한 길이의 순위 목록에 대해 메트릭을 비교할 수 있습니다. 1에 가까운 값이 더 좋습니다.

이상 탐지에 대한 평가 지표

측정단위 설명 살펴볼 항목
ROC 곡선 아래 영역 수신기 연산자 곡선 아래의 영역은 모델이 비정상 데이터 요소와 일반적인 데이터 요소를 얼마나 잘 구분하는지 측정합니다. 1에 가까운 값이 더 좋습니다. 0.5보다 큰 값만 모델의 효과를 보여 줍니다. 0.5 이하의 값은 모델이 입력을 비정상적이고 일반적인 범주에 임의로 할당하는 것보다 낫지 않음을 나타냅니다.
가양성 수에서의 탐지율 가양성 수에 따른 검출 비율은 테스트 집합의 총 변칙 수 중 올바르게 식별된 변칙 수의 비율을 나타내며, 각 가양성에 의해 측정됩니다. 즉, 각 가양성 항목에 대해 가양성 수에서의 탐지 비율 값이 있습니다. 1에 가까운 값이 더 좋습니다. 가양성 값이 없으면 이 값은 1입니다.

문장 유사성에 대한 평가 메트릭

측정단위 설명 살펴볼 항목
피어슨 상관 관계 상관 계수라고도 하는 Pearson 상관 관계는 두 데이터 집합 간의 의존성 또는 관계를 측정합니다. 1에 가까운 절대값은 가장 유사합니다. 이 메트릭은 -1 범위에서 1까지입니다. 절대값 1은 데이터 세트가 동일하다는 것을 의미합니다. 값이 0이면 두 데이터 집합 간에 관계가 없음을 의미합니다.