기계 학습 유형

완료됨

기계 학습에는 여러 유형이 있으며 예측하려는 내용에 따라 적절한 형식을 적용해야 합니다. 다음 다이어그램에는 일반적인 유형의 기계 학습에 대한 분석이 나와 있습니다.

Diagram showing supervised machine learning (regression and classification) and unsupervised machine learning (clustering).

감독된 기계 학습

감독 기계 학습은 학습 데이터에 기능 값과 알려진 레이블 값이 모두 포함된 기계 학습 알고리즘의 일반적인 용어입니다. 감독된 기계 학습은 과거 관찰에서 기능과 레이블 간의 관계를 결정하여 모델을 학습시키는 데 사용되므로 향후의 경우 기능에 대해 알 수 없는 레이블을 예측할 수 있습니다.

회귀

회귀는 모델에서 예측한 레이블이 숫자 값인 감독 기계 학습의 한 형태입니다. 예시:

  • 온도, 강우량 및 풍속에 따라 지정된 날에 판매되는 아이스크림의 수.
  • 평방 피트의 크기에 따라 속성의 판매 가격, 포함 된 침실의 수, 그 위치에 대한 사회 경제적 메트릭.
  • 엔진 크기, 무게, 너비, 높이 및 길이에 따라 자동차의 연료 효율(갤런당 마일 단위).

분류

분류는 레이블이 분류 또는 클래스를 나타내는 감독된 기계 학습의 한 형태입니다. 두 가지 일반적인 분류 시나리오가 있습니다.

이진 분류

이진 분류에서 레이블은 관찰된 항목이 특정 클래스의 인스턴스인지(또는 아닌지) 여부를 결정합니다. 또는 이진 분류 모델은 상호 배타적인 두 가지 결과 중 하나를 예측합니다. 예시:

  • 환자가 체중, 나이, 혈당 수준 등과 같은 임상 메트릭에 따라 당뇨병의 위험이 있는지 여부.
  • 은행 고객이 소득, 신용 기록, 연령 및 기타 요인에 따라 대출을 기본값으로 설정할지 여부.
  • 우편물 목록 고객이 인구 통계 특성 및 과거 구매에 따라 마케팅 제안에 긍정적으로 응답할지 여부.

이러한 모든 예제에서 모델은 가능한 단일 클래스에 대해 이진 true/false(참/거짓) 또는 양성/음성 예측을 예측합니다.

다중 클래스 분류

다중 클래스 분류는 이진 분류를 확장하여 가능한 여러 클래스 중 하나를 나타내는 레이블을 예측합니다. 예를 들면 다음과 같습니다.

  • 펭귄의 종(Adelie, Gentoo 또는 Chinstrap)은 물리적 측정을 기반으로 합니다.
  • 영화의 장르(코미디, 공포, 로맨스, 모험, 또는 공상 과학)는 출연진, 감독 및 예산을 기준으로합니다.

여러 클래스의 알려진 집합을 포함하는 대부분의 시나리오에서 다중 클래스 분류는 상호 배타적인 레이블을 예측하는 데 사용됩니다. 예를 들어, 펭귄은 Gentoo이면서 Adelie일 수는 없습니다. 그러나 다중 레이블 분류 모델을 학습하는 데 사용할 수 있는 몇 가지 알고리즘도 있으며, 이 경우 단일 관측치에 대해 둘 이상의 유효한 레이블이 있을 수 있습니다. 예를 들어, 영화는 잠재적으로 공상 과학코미디로 분류될 수 있습니다.

감독되지 않는 기계 학습

비감독 기계 학습에는 알려진 레이블 없이 기능 값으로만 구성된 데이터를 사용하여 모델을 학습하는 작업이 포함됩니다. 감독되지 않은 기계 학습 알고리즘은 학습 데이터에서 관찰 기능 간의 관계를 결정합니다.

Clustering

비감독 기계 학습의 가장 일반적인 형태는 클러스터링입니다. 클러스터링 알고리즘은 해당 기능에 따라 관찰 간의 유사성을 식별하고 개별 클러스터로 그룹화합니다. 예시:

  • 크기, 잎 수 및 꽃잎 수에 따라 비슷한 꽃을 그룹화합니다.
  • 인구 통계 특성 및 구매 동작에 따라 유사한 고객 그룹을 식별합니다.

어떤 면에서 클러스터링 다중 클래스 분류와 유사합니다. 즉, 관찰을 개별 그룹으로 분류합니다. 차이점은 분류를 사용할 때 학습 데이터의 관찰이 속한 클래스를 이미 알고 있다는 것입니다. 알고리즘은 기능과 알려진 분류 레이블 간의 관계를 결정하여 작동합니다. 클러스터링 이전에 알려진 클러스터 레이블이 없으며 알고리즘은 기능의 유사성에 따라 데이터 관찰을 그룹화합니다.

경우에 따라 클러스터링 분류 모델을 학습하기 전에 존재하는 클래스 집합을 결정하는 데 사용됩니다. 예를 들어 클러스터링을 사용하여 고객을 그룹으로 분할한 다음 해당 그룹을 분석하여 다양한 고객 클래스(높은 가치 - 낮은 볼륨, 빈번한 소규모 구매자 등)를 식별하고 분류할 수 있습니다. 그런 다음 분류를 사용하여 클러스터링 결과의 관찰에 레이블을 지정하고 레이블이 지정된 데이터를 사용하여 새 고객이 속할 수 있는 고객 범주를 예측하는 분류 모델을 학습시킬 수 있습니다.