Clustering

Effectué

Le clustering est une forme de Machine Learning non supervisé dans laquelle des observations sont regroupées en clusters sur la base de similitudes au niveau de leurs valeurs de données ou de leurs caractéristiques. Ce type de Machine Learning est considéré comme non supervisé, car il n’utilise pas de valeurs d’étiquettes connues au préalable pour effectuer l’apprentissage d’un modèle. Dans un modèle de clustering, l’étiquette correspond au cluster auquel l’observation est attribuée, en fonction de ses caractéristiques uniquement.

Exemple – clustering

Par exemple, supposons qu’un botaniste observe un échantillon de fleurs et enregistre le nombre de pétales et de feuilles sur chaque fleur :

Diagram of some flowers.

Il n’existe aucune étiquette connue dans le jeu de données, seules deux fonctionnalités y sont présentes. L’objectif n’est pas d’identifier les différents types (espèces) de fleurs, mais simplement de regrouper des fleurs semblables en fonction du nombre de feuilles et de pétales.

Feuilles (x1) Pétales (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Apprentissage d'un modèle de clustering

Il existe plusieurs algorithmes que vous pouvez utiliser pour le clustering. L’un des algorithmes les plus couramment utilisés est le clustering K-Means, qui comprend les étapes suivantes :

  1. Les valeurs (x) de la caractéristique sont vectorisées pour définir des coordonnées à n dimensions (où n est le nombre de caractéristiques). L’exemple de fleur comprend deux caractéristiques : le nombre de feuilles (x1) et le nombre de pétales (x2). Le vecteur de caractéristique a donc deux coordonnées que nous pouvons utiliser pour tracer de manière conceptuelle les points de données dans un espace à deux dimensions ([x1,x2])
  2. Vous devez déterminer le nombre de clusters à utiliser pour regrouper les fleurs. Appelez cette valeur k. Par exemple, pour créer trois clusters, vous devez utiliser une valeur k de 3. Ensuite, les points k sont tracés sur des coordonnées aléatoires. Ces points deviennent les points centraux de chaque cluster et sont donc appelés centroïdes.
  3. Chaque point de données (chaque fleur, dans ce cas) est attribué à son centroïde le plus proche.
  4. Chaque centroïde est déplacé vers le centre des points de données qui lui sont attribués en fonction de la distance moyenne entre les points.
  5. Après le déploiement du centroïde, les points de données peuvent se rapprocher d’un autre centroïde. Les points de données sont donc réattribués aux clusters en fonction du centroïde le plus proche.
  6. Les étapes de déplacement du centroïde et de réattribution de cluster se répètent jusqu’à ce que les clusters deviennent stables ou qu’un nombre maximal d’itérations prédéterminé soit atteint.

L’animation suivante illustre ce processus :

Diagram of an animation showing the k-means clustering process.

Évaluation d’un modèle de clustering

Puisqu’il n’existe aucune étiquette connue pour comparer les attributions prédites de cluster, l’évaluation d’un modèle clustering est basée sur la façon dont les clusters résultants sont séparés les uns des autres.

Il existe plusieurs métriques à utiliser pour évaluer la séparation des clusters, notamment :

  • Distance moyenne vers le centre du cluster : La distance, en moyenne, qui sépare chaque point dans le cluster des centroïdes des autres clusters.
  • Distance moyenne vers l’autre centre : La distance, en moyenne, qui sépare chaque point dans le cluster des centroïdes de tous les autres clusters.
  • Distance maximale au centre du cluster : La distance la plus éloignée entre un point du cluster et son centroïde.
  • Silhouette : Une valeur comprise entre -1 et 1 qui résume le rapport de distance entre les points d’un même cluster et les points de clusters différents (plus c’est proche de 1, meilleure est la séparation de cluster).