사용자 지정 명명된 엔터티 인식 모델에 대한 평가 메트릭

아티클
02/12/2024

데이터 세트는 학습용 세트와 테스트용 세트의 두 부분으로 나뉩니다. 학습 집합은 모델을 학습시키는 데 사용되고 테스트 집합은 모델 성능 및 평가를 계산하기 위해 학습 후 모델을 테스트하는 데 사용됩니다. 테스트 세트는 학습 프로세스를 통해 모델에 도입되지 않으므로 모델이 새 데이터에 대해 테스트되었는지 확인해야 합니다.

학습이 성공적으로 완료되면 모델 평가가 자동으로 트리거됩니다. 평가 프로세스는 학습된 모델을 사용하여 테스트 세트의 문서에 대한 사용자 정의 엔터티를 예측하고 제공된 데이터 태그(진리 기준선 설정)와 비교하는 것으로 시작됩니다. 모델의 성능을 검토할 수 있도록 결과가 반환됩니다. 평가를 위해 사용자 지정 NER은 다음 메트릭을 사용합니다.

정밀도: 모델이 얼마나 정확하고 정확한지를 측정합니다. 올바르게 식별된 긍정(진양성)과 식별된 모든 긍정 간의 비율입니다. 정밀도 메트릭은 올바르게 레이블이 지정된 예측된 엔터티 수를 보여 줍니다.

Precision = #True_Positive / (#True_Positive + #False_Positive)
재현율: 실제 양성 클래스를 예측하는 모델의 능력을 측정합니다. 예측된 진양성과 실제로 태그된 것 간의 비율입니다. 재현율 메트릭은 올바른 예측된 엔터티 수를 보여 줍니다.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 점수: F1 점수는 정밀도와 재현율의 함수입니다. 정밀도와 재현율 사이의 균형을 추구할 때 필요합니다.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

참고 항목

정밀도, 재현율 및 F1 점수는 각 엔터티에 대해 개별적으로(엔터티 수준 평가) 및 모델에 대해 집합적으로(모델 수준 평가) 계산됩니다.

모델 수준 및 엔터티 수준 평가 메트릭

정밀도, 재현율 및 F1 점수는 각 엔터티에 대해 개별적으로(엔터티 수준 평가) 및 모델에 대해 집합적으로(모델 수준 평가) 계산됩니다.

정밀도, 재현율 및 평가의 정의는 엔터티 수준 및 모델 수준 평가 모두에서 동일합니다. 그러나 진양성, 가양성 및 가음성의 개수는 다를 수 있습니다. 예를 들어 다음 텍스트를 고려합니다.

예시

이 계약의 첫 번째 당사자는 5678 Main Rd., City of Frederick, state of Nebraska에 거주하는 John Smith입니다. 그리고 두 번째 당사자는 123-345 Integer Rd., City of Corona, state of New Mexico에 거주하는 Forrest Ray입니다. 또한 7890 River Road, city of Colorado Springs, State of Colorado에 거주하는 Fannie Thomas도 있습니다.

이 텍스트에서 엔터티를 추출하는 모델은 다음과 같은 예측을 가질 수 있습니다.

Entity	다음과 같이 예측됨	실제 유형
John Smith	Person	Person
Frederick	Person	City
Forrest	City	Person
Fannie Thomas	Person	Person
Colorado Springs	City	City

person 엔터티에 대한 엔터티 수준 평가

모델은 person 엔터티에 대해 다음과 같은 엔터티 수준 평가를 갖습니다.

키	Count	설명
참 긍정	2	John Smith와 Fannie Thomas는 인물로 올바르게 예측되었습니다.
거짓 긍정	1	Frederick은 city여야 하는데 person으로 잘못 예측되었습니다.
거짓 부정	1	Forrest는 city로 잘못 예측되었지만 person이어야 했습니다.

정밀도: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
재현율: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
F1 점수: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

city 엔터티에 대한 엔터티 수준 평가

모델은 city 엔터티에 대해 다음과 같은 엔터티 수준 평가를 갖습니다.

키	Count	설명
참 긍정	1	Colorado Springs는 도시로 올바르게 예측되었습니다.
거짓 긍정	1	Forrest는 city로 잘못 예측되었지만 person이어야 했습니다.
거짓 부정	1	Frederick은 city여야 하는데 person으로 잘못 예측되었습니다.

정밀도 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
재현율 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 점수 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

집합적 모델에 대한 모델 수준 평가

모델은 전체 모델에 대해 다음과 같은 평가를 받습니다.

키	Count	설명
참 긍정	3	John Smith와 Fannie Thomas는 인물로 올바르게 예측되었습니다. Colorado Springs는 도시로 올바르게 예측되었습니다. 이는 모든 엔터티에 대한 진양성의 합계입니다.
거짓 긍정	2	Forrest는 city로 잘못 예측되었지만 person이어야 했습니다. Frederick은 city여야 하는데 person으로 잘못 예측되었습니다. 이는 모든 엔터티에 대한 가양성의 합계입니다.
거짓 부정	2	Forrest는 city로 잘못 예측되었지만 person이어야 했습니다. Frederick은 city여야 하는데 person으로 잘못 예측되었습니다. 이는 모든 엔터티에 대한 가음성의 합계입니다.

정밀도 = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
재현율 = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
F1 점수 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

엔터티 수준 평가 메트릭 해석

그렇다면 특정 개체에 대해 높은 정밀도 또는 높은 재현율을 갖는다는 것은 실제로 무엇을 의미하나요?

재현율	정밀도	해석
높음	높음	이 엔터티는 모델에서 잘 처리됩니다.
낮음	높음	모델이 항상 이 엔터티를 추출할 수는 없지만 추출할 때 높은 신뢰도로 추출할 수 있습니다.
높음	낮음	모델은 이 엔터티를 잘 추출하지만 때때로 다른 유형으로 추출되기 때문에 신뢰도가 낮습니다.
낮음	낮음	이 엔터티 형식은 일반적으로 추출되지 않기 때문에 모델에서 제대로 처리되지 않습니다. 그럴 때 그것은 높은 자신감이 아닙니다.

지침

모델이 학습되면 모델을 향상시키는 방법에 대한 몇 가지 지침과 권장 사항이 표시됩니다. 지침 섹션의 모든 사항을 처리하는 모델을 사용하는 것이 좋습니다.

학습 세트에 충분한 데이터가 있습니다. 엔터티 형식의 학습 데이터에 레이블이 지정된 15개 미만의 인스턴스가 있는 경우 모델이 이러한 경우에 대해 적절하게 학습되지 않아 정확도가 낮아질 수 있습니다. 이 경우 레이블이 지정된 데이터를 학습 세트에 더 추가하는 것이 좋습니다. 자세한 지침은 데이터 배포 탭에서 확인할 수 있습니다.
모든 엔터티 형식이 테스트 세트에 있습니다. 테스트 데이터에 엔터티 형식에 대한 레이블이 지정된 인스턴스가 없는 경우 테스트되지 않은 시나리오로 인해 모델의 테스트 성능이 덜 포괄적일 수 있습니다. 자세한 지침은 테스트 세트 데이터 배포 탭에서 확인할 수 있습니다.
엔터티 형식은 학습 및 테스트 세트 내에서 균형을 유지합니다. 샘플링 편향으로 인해 엔터티 형식의 빈도가 부정확하게 표현되면 해당 엔터티 형식이 너무 자주 또는 너무 적게 발생할 것으로 예상하는 모델로 인해 정확도가 낮아질 수 있습니다. 자세한 지침은 데이터 배포 탭에서 확인할 수 있습니다.
엔터티 형식은 학습 세트와 테스트 세트 간에 균등하게 배포되어 있습니다. 엔터티 형식의 혼합이 학습 세트와 테스트 세트 간에 일치하지 않는 경우 모델이 테스트되는 방식과 다르게 학습되므로 테스트 정확도가 낮아질 수 있습니다. 자세한 지침은 데이터 배포 탭에서 확인할 수 있습니다.
학습 세트의 엔터티 형식이 명확하게 구분되지 않습니다. 학습 데이터가 여러 엔터티 형식에 대해 비슷한 경우 엔터티 형식이 서로 잘못 분류되는 경우가 많으므로 정확도가 낮아질 수 있습니다. 다음 엔터티 형식을 검토하고 비슷한 경우 병합하는 것이 좋습니다. 그렇지 않은 경우 서로 더 잘 구분할 수 있도록 더 많은 예를 추가합니다. 자세한 지침은 혼동 행렬 탭에서 확인할 수 있습니다.

혼동 행렬

혼동 행렬은 모델 성능 평가에 사용되는 N x N 행렬입니다. 여기서 N은 엔터티 수입니다. 이 행렬은 예상 레이블을 모델에서 예측한 레이블과 비교합니다. 이를 통해 모델이 얼마나 잘 수행되고 있으며 어떤 종류의 오류가 발생하는지에 대한 전체적인 관점을 제공합니다.

혼동 행렬을 사용하여 서로 너무 가까이 있고 자주 혼동되는 엔터티(모호성)를 식별할 수 있습니다. 이 경우 이러한 엔터티 형식을 함께 병합하는 것이 좋습니다. 이것이 가능하지 않은 경우 모델이 두 엔터티를 구분할 수 있도록 두 엔터티의 태그가 지정된 예를 더 추가하는 것이 좋습니다.

아래 이미지에서 강조 표시된 대각선은 올바르게 예측된 엔터티이며 예측된 태그는 실제 태그와 동일합니다.

혼동 행렬에서 엔터티 수준 및 모델 수준 평가 메트릭을 계산할 수 있습니다.

대각선의 값은 각 엔터티의 진양성 값입니다.
엔터티 행의 값 합계(대각선 제외)는 모델의 가양성입니다.
엔터티 열 값의 합(대각선 제외)은 모델의 가음성입니다.

마찬가지로,

모델의 진양성은 모든 엔터티에 대한 진양성의 합계입니다.
모델의 가양성은 모든 엔터티에 대한 가양성의 합계입니다.
모델의 가음성은 모든 엔터티에 대한 가음성의 합계입니다.