테스트 집합의 미묘한 차이

완료됨

테스트 집합은 기계 학습의 많은 측면에서 모범 사례로 간주되지만, 이 분야가 상대적으로 젊기 때문에, 정확히 언제 어디에 필요한지에 대한 논쟁이 자주 있습니다. 고려해야 할 몇 가지 사항을 살펴보겠습니다.

테스트 집합이 잘못될 수 있음

테스트 집합은 과도한 학습을 식별하는 데 유용하지만, 거짓 확신을 제공할 수 있습니다. 특히, 테스트 집합은 실제 세계에서 볼 수 있는 데이터를 반영하는 경우에만 유용합니다. 예를 들어, 이 테스트 집합은 매우 작아 실제 세계에서 볼 수 있는 다양한 데이터를 대변하지 못합니다. 테스트 데이터 집합은 원본 이상으로 좋을 수 없습니다. 테스트 데이터 집합이 편향된 원본에서 제공되는 경우, 메트릭은 실제 세계에서 사물이 어떻게 동작하는지를 반영하지 않습니다.

예를 들어, 구조의 수와 그 훈련을 시작한 개의 연령과의 관계를 찾으려는 경우를 가정해 보겠습니다. 테스트 집합이 개 3마리에 대해서 밖에 없는 경우, 이러한 범위는 실제 세계의 다양한 개를 잘 대변하지 못할 수 있습니다. 또한, 강아지를 잘 다루지 못하는 한 명의 사육사로부터만 테스트 집합을 얻은 경우를 상상해 보십시오. 다른 훈련자들은 어린 동물로 성공을 거두고 있을 때, 우리의 모델은 연령이 있는 개가 훈련시키기에 적합하다고 예측하고, 테스트 데이터 집합이 이를 확인할 수 있습니다.

테스트 집합은 공짜가 아닙니다

학습 데이터가 많을 수록, 모델의 과잉 맞춤 가능성이 낮아진다는 것은 이미 살펴보았습니다. 마찬가지로, 테스트 집합이 클수록 테스트 결과를 신뢰할 수 있습니다. 그러나, 일반적으로 유한한 데이터를 사용하여 작업하고, 데이터 포인트는 학습 및 테스트 집합 모두에 포함될 수 없습니다. 즉, 더 큰 테스트 집합이 제공될수록, 더 작은 학습 데이터 집합을 얻게 되고, 그 반대의 경우도 마찬가지입니다. 테스트 데이터 집합에 표시되는 데이터가 얼마만큼 희생되는지는 개별 상황에 따라 달라집니다. 사용 가능한 데이터의 양에 따라 10 ~ 50%가 일반적입니다.

학습 및 테스트는 유일한 방법이 아닙니다

학습 및 테스트는 일반적이지만, 널리 사용되는 유일한 방법은 아니라는 것을 기억해야 합니다. 보다 일반적인 대안 두 가지는 홀드아웃 방법통계적 접근 방식입니다.

홀드아웃 방법

홀드아웃 방법은 학습 및 테스트 방법과 유사하지만, 데이터 집합을 두 개로 분할하는 대신 학습, 테스트(유효성 검사라고도 함), 홀드아웃 세 개로 분할합니다. 학습 및 테스트 데이터 집합은 이전에 설명했습니다. 홀드아웃 데이터 집합은 실제 사용을 위해 모델을 배포할 준비가 되었을 때 한 번만 사용되는 일종의 테스트 집합입니다. 즉, 서로 다른 종류의 학습 방법, 다른 종류의 모델 등을 사용하여 실험을 완료할 때까지 사용되지 않습니다.

이 방법은 일반적으로 다른 모델 및 학습 방법으로 실험한다는 것을 말해줍니다. 예를 들어, 모델을 맞추고, 테스트 데이터 집합에서 제대로 작동하지 않는다는 것을 찾고, 학습 중인 모델의 일부 측면을 변경하고, 좋은 결과를 얻을 때까지 다시 시도합니다. 즉, 일반적인 학습에서 학습 데이터 집합을 사용하는 것과 같이, 특정 데이터 집합에 대해 작동하도록 모델을 의도적으로 변경합니다. 이를 통해 테스트 데이터 집합에서 작동하도록 너무 과도하게 학습된 모델을 사용하게 될 수 있습니다!

세 번째 데이터 집합 또한 테스트할 수 있습니다. 이 방법은 데이터를 세 가지 방식으로 분할하는 것을 의미합니다. 즉, 더 적은 학습 데이터로 시작합니다. 작업할 데이터가 많지 않은 경우, 이 방법을 사용하면 좋은 모델을 얻을 수 있는 능력을 줄일 수 있습니다.

통계 방법

통계로부터 유래한 간단한 모델이며, 데이터 집합이 필요하지 않은 경우도 있습니다. 대신, 모델이 과잉 맞춤되는 정도를 통계 중요도로 직접 계산할 수 있습니다(p-값).

이러한 통계 방법은 강력하고 잘 확립되었으며, 현대 과학의 토대를 형성합니다. 장점은 학습 집합을 분할하지 않아도 되고, 모델을 얼마나 확신할 수 있는지에 대해 보다 정확하게 이해할 수 있다는 것입니다. 예를 들어, 0.01의 p-값은 모델이 실제로 실제 세계에 존재하지 않는 관계를 발견할 가능성이 매우 낮다는 것을 의미합니다. 이와 대조적으로, 0.5의 p-값은 모델이 학습 데이터와 잘 맞는 것처럼 보여도, 이는 실제 세계에서 동전 던지기를 하는 것과 다를 게 없음을 의미합니다.

이러한 방법의 단점은 우리가 연습하고 있는 선형 회귀 모델과 같은 특정 모델 유형에만 쉽게 적용된다는 것입니다. 가장 간단한 모델을 제외하고, 이러한 계산은 제대로 수행하기 매우 복잡할 수 있으므로, 현재 과정의 범위를 벗어납니다. 또한 데이터 선택에 관한 동일한 제한 사항이 적용됩니다. 학습 데이터가 편향되는 경우 p 값은 잘못된 것입니다.