Avaliar diferentes tipos de agrupamento

Concluído

Treinamento de um modelo de agrupamento

Há vários algoritmos que você pode usar para clustering. Um dos algoritmos mais utilizados é o agrupamento K-Means que, na sua forma mais simples, consiste nos seguintes passos:

  1. Os valores de feição são vetorizados para definir coordenadas n-dimensionais (onde n é o número de recursos). No exemplo da flor, temos duas características: número de pétalas e número de folhas. Assim, o vetor de feição tem duas coordenadas que podemos usar para plotar conceitualmente os pontos de dados no espaço bidimensional.
  2. Você decide quantos aglomerados deseja usar para agrupar as flores - chame esse valor de k. Por exemplo, para criar três clusters, você usaria um valor k de 3. Em seguida, os pontos k são plotados em coordenadas aleatórias. Esses pontos se tornam os pontos centrais de cada aglomerado, por isso são chamados de centróides.
  3. Cada ponto de dados (neste caso, uma flor) é atribuído ao seu centróide mais próximo.
  4. Cada centróide é movido para o centro dos pontos de dados atribuídos a ele com base na distância média entre os pontos.
  5. Depois que o centróide é movido, os pontos de dados podem agora estar mais próximos de um centróide diferente, de modo que os pontos de dados são reatribuídos a clusters com base no novo centróide mais próximo.
  6. As etapas de movimento centróide e realocação de cluster são repetidas até que os clusters se tornem estáveis ou um número máximo predeterminado de iterações seja atingido.

A animação a seguir mostra esse processo:

Illustration showing a collection of flowers with different numbers of petals and leaves.

Agrupamento hierárquico

O agrupamento hierárquico é outro tipo de algoritmo de agrupamento no qual os próprios clusters pertencem a grupos maiores, que pertencem a grupos ainda maiores, e assim por diante. O resultado é que os pontos de dados podem ser agrupados em diferentes graus de precisão: com um grande número de grupos muito pequenos e precisos, ou um pequeno número de grupos maiores.

Por exemplo, se aplicarmos agrupamento aos significados das palavras, podemos obter um grupo contendo adjetivos específicos para emoções ('irritado', 'feliz' e assim por diante). Este grupo pertence a um grupo que contém todos os adjetivos relacionados ao ser humano ('feliz', 'bonito', 'jovem'), que pertence a um grupo ainda mais alto contendo todos os adjetivos ('feliz', 'verde', 'bonito', 'duro' e assim por diante).

Illustration showing hierarchical clustering.

O agrupamento hierárquico é útil não apenas para dividir dados em grupos, mas também para entender as relações entre esses grupos. Uma grande vantagem do agrupamento hierárquico é que ele não exige que o número de clusters seja definido antecipadamente. E, por vezes, pode fornecer resultados mais interpretáveis do que abordagens não hierárquicas. As principais desvantagens são que essas abordagens podem levar mais tempo para serem computadas do que abordagens mais simples e, às vezes, não são adequadas para grandes conjuntos de dados.