문제 정의
첫 번째 단계부터 다음을 이해하여 모델에서 해결해야 하는 문제를 정의 하려고 합니다.
- 모델이 출력해야 하는 내용
- 사용할 기계 학습 작업의 유형
- 모델의 성공을 평가하는 기준
가지고 있는 데이터와 모델에서 예상되는 출력에 따라 기계 학습 작업을 식별할 수 있습니다. 이 작업은 모델을 학습하는 데 사용할 수 있는 알고리즘 유형을 결정합니다.
몇 가지 일반적인 기계 학습 작업은 다음과 같습니다.
- 분류: 범주 값을 예측합니다.
- 회귀: 숫자 값을 예측합니다.
- 시계열 예측: 시계열 데이터를 기반으로 미래 숫자 값을 예측합니다.
- 컴퓨터 비전: 이미지를 분류하거나 이미지에서 개체를 검색합니다.
- NLP(자연어 처리): 텍스트에서 인사이트를 추출합니다.
모델을 학습시키려는 경우, 수행하려는 작업에 따라 사용할 수 있는 알고리즘 집합이 있습니다. 모델을 평가하려는 경우, 정확도 또는 정밀도와 같은 성능 메트릭을 계산할 수 있습니다. 사용 가능한 메트릭은 모델에서 수행해야 하는 작업에 따라 달라지며 모델에서 작업의 성공 여부를 판단하는 데 도움이 됩니다.
예 살펴보기
환자에게 당뇨병이 있는지 확인하려는 상황을 생각해 보겠습니다. 해결하려는 문제와 사용 가능한 데이터 형식에 따라 선택할 기계 학습 작업이 결정됩니다. 이 경우, 사용할 수 있는 데이터는 환자의 다른 상태 데이터 포인트입니다. 우리는 환자가 당뇨병이 있거나 당뇨병이 없는 범주 정보로 원하는 출력을 나타낼 수 있습니다. 따라서 기계 학습 작업은 분류입니다.
시작하기 전에 전체 프로세스를 이해하면 성공적인 기계 학습 솔루션을 설계하는 데 필요한 의사 결정을 매핑할 수 있는 기회가 제공됩니다. 다음은 환자의 당뇨병을 식별하는 문제에 접근하는 한 가지 방법을 보여 주는 다이어그램입니다. 이 다이어그램에서는 특정 알고리즘을 사용하여 데이터가 준비, 분할, 학습됩니다. 그 후, 모델의 품질을 평가합니다.
- 데이터 로드: 데이터 세트를 가져오고 검사합니다.
- 전처리 데이터: 일관성을 위해 정규화하고 정리합니다.
- 데이터 분할: 학습 및 테스트 집합으로 구분합니다.
- 모델 선택: 알고리즘을 선택하고 구성합니다.
- 학습 모델: 학습 데이터에서 패턴을 알아봅니다.
- 모델 점수 매기기: 테스트 데이터에 대한 예측을 생성합니다.
- 평가: 성능 메트릭을 계산합니다.
기계 학습 모델을 학습하는 것은 종종 반복적인 프로세스으로, 각 단계를 여러 번 반복하여 가장 성능이 좋은 모델을 찾습니다. 다음으로, 기계 학습 솔루션을 개발하기 위한 데이터 준비 프로세스를 살펴보겠습니다.