Clustering
O clustering é uma forma de aprendizado de máquina não supervisionado em que as observações são agrupadas em clusters com base em semelhanças em seus dados, valores ou recursos. Esse tipo de aprendizado de máquina é considerado não supervisionado porque não faz uso de valores de rótulo previamente conhecidos para treinar um modelo. Em um modelo de clustering, o rótulo é o cluster ao qual a observação é atribuída, com base apenas em suas características.
Exemplo - clustering
Por exemplo, suponha que um botânico observa uma amostra de flores e registra o número de folhas e pétalas em cada flor:
Não há rótulos conhecidos no conjunto de dados, apenas dois recursos. O objetivo não é identificar os diferentes tipos (espécies) de flor; apenas para agrupar flores semelhantes com base no número de folhas e pétalas.
Folhas (x1) | Pétalas (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Treinamento de um modelo de agrupamento
Há vários algoritmos que você pode usar para clustering. Um dos algoritmos mais usados é o agrupamento K-Means , que consiste nas seguintes etapas:
- Os valores de feição (x) são vetorizados para definir coordenadas n-dimensionais (onde n é o número de características). No exemplo da flor, temos duas características: número de folhas (x1) e número de pétalas (x2). Assim, o vetor de feição tem duas coordenadas que podemos usar para plotar conceitualmente os pontos de dados no espaço bidimensional ([x1,x 2])
- Você decide quantos aglomerados deseja usar para agrupar as flores - chame esse valor de k. Por exemplo, para criar três clusters, você usaria um valor k de 3. Em seguida, os pontos k são plotados em coordenadas aleatórias. Esses pontos se tornam os pontos centrais de cada aglomerado, por isso são chamados de centróides.
- Cada ponto de dados (neste caso, uma flor) é atribuído ao seu centróide mais próximo.
- Cada centróide é movido para o centro dos pontos de dados atribuídos a ele com base na distância média entre os pontos.
- Depois que o centróide é movido, os pontos de dados podem agora estar mais próximos de um centróide diferente, de modo que os pontos de dados são reatribuídos a clusters com base no novo centróide mais próximo.
- As etapas de movimento centróide e realocação de cluster são repetidas até que os clusters se tornem estáveis ou um número máximo predeterminado de iterações seja atingido.
A animação a seguir mostra esse processo:
Avaliando um modelo de clustering
Como não há um rótulo conhecido com o qual comparar as atribuições de cluster previstas, a avaliação de um modelo de agrupamento é baseada em quão bem os clusters resultantes estão separados uns dos outros.
Há várias métricas que você pode usar para avaliar a separação de clusters, incluindo:
- Distância média ao centro do cluster: quão perto, em média, cada ponto do cluster está do centróide do cluster.
- Distância média para outro centro: quão perto, em média, cada ponto do cluster está do centróide de todos os outros clusters.
- Distância máxima ao centro do cluster: A distância mais distante entre um ponto do cluster e seu centróide.
- Silhueta: Um valor entre -1 e 1 que resume a razão de distância entre pontos no mesmo cluster e pontos em clusters diferentes (Quanto mais próximo de 1, melhor a separação do cluster).