여러 유형의 클러스터링 평가

완료됨

클러스터링 모델 학습

클러스터링에 사용할 수 있는 다양한 알고리즘이 존재합니다. 가장 일반적으로 사용되는 알고리즘 중 하나는 가장 간단한 형식으로 다음 단계로 구성된 K-평균 클러스터링입니다.

  1. 기능 값은 n차원 좌표를 정의하도록 벡터화됩니다(여기서 n 은 기능 수임). 꽃 예제에는 꽃잎 수와 잎 수라는 두 가지 특징이 있습니다. 따라서 기능 벡터는 2차원 공간에서 개념적으로 데이터 요소를 그리는 데 사용할 수 있는 두 개의 좌표를 갖게 됩니다.
  2. 꽃을 그룹화하기 위해 사용할 클러스터 수를 결정합니다. 이 값 k를 호출합니다. 예를 들어 세 개의 클러스터를 만들려면 k 값 3을 사용합니다. 그런 다음 k 점이 임의 좌표로 그려집니다. 이러한 지점은 각 클러스터의 중심점이 되므로 중심점이라고 합니다.
  3. 각 데이터 지점(이 경우에는 꽃)이 가장 가까운 중심에 할당됩니다.
  4. 각 중심은 점수 간의 평균 거리를 기준으로 해당 개체에 할당된 데이터 요소의 가운데로 이동됩니다.
  5. 중심이 옮겨진 후 데이터 요소가 다른 중심에 더 가까이 있게 될 수도 있으므로, 가장 가까운 새 중심을 기반으로 데이터 요소가 클러스터에 재할당됩니다.
  6. 중심 이동 및 클러스터 재할당 단계는 클러스터가 안정되거나 사전에 정해진 최대 반복 횟수에 도달할 때까지 반복됩니다.

다음 애니메이션은 해당 프로세스를 나타냅니다.

꽃잎과 잎의 수가 다른 꽃의 컬렉션을 보여주는 일러스트레이션.

계층적 클러스터링

계층적 클러스터링은 여러 클러스터가 더 큰 그룹에 속하고, 이 더 큰 그룹들이 또 다시 더 큰 그룹에 속하는 또 다른 유형의 클러스터링 알고리즘입니다. 따라서 데이터 포인트는 정밀도가 다른 클러스터일 수 있습니다. 즉, 매우 작고 정확한 그룹이 많이 있거나 큰 그룹이 약간 있을 수 있습니다.

예를 들어 단어의 의미에 클러스터링을 적용하면 감정과 관련된 형용사(‘화가 난’, ‘행복한’ 등)가 포함된 그룹을 얻을 수 있습니다. 이 그룹은 사람과 관련된 모든 형용사('행복한', '잘생긴', '젊은')를 포함하는 그룹에 속하며, 그 그룹은 모든 형용사('행복한', '푸른', '잘생긴', '단단한' 등)를 포함하는 더 높은 그룹에 속합니다.

계층적 클러스터링을 보여 주는 일러스트레이션.

계층적 클러스터링은 데이터를 여러 그룹으로 분리하고 그룹 간의 관계를 이해하는 데 유용합니다. 계층적 클러스터링의 주요 장점은 클러스터 수를 미리 정의할 필요가 없다는 점입니다. 그리고 때로는 비계층적 접근 방식보다 더 많은 해석 가능한 결과를 제공하기도 합니다. 이러한 접근 방식의 주요 단점은 단순한 접근 방식보다 컴퓨팅 시간이 오래 걸릴 수 있으며, 큰 데이터 세트에 적합하지 않을 수도 있다는 점입니다.