Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à :
SQL Server 2019 et versions antérieures d’Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.
L’algorithme de clustering Microsoft est un algorithme de segmentation ou de clustering qui parcourt les cas d'un jeu de données pour les regrouper en groupes qui contiennent des caractéristiques similaires. Ces regroupements sont utiles pour explorer les données, identifier les anomalies dans les données et créer des prédictions.
Les modèles de clustering identifient les relations dans un jeu de données que vous risquez de ne pas dériver logiquement à l’aide d’une observation occasionnelle. Par exemple, vous pouvez facilement deviner que les personnes qui se rendent à leur travail à vélo ne vivent généralement pas à une longue distance de l’endroit où ils travaillent. Toutefois, l’algorithme peut trouver d’autres caractéristiques sur les navetteurs de vélo qui ne sont pas aussi évidents. Dans le diagramme suivant, le cluster A représente des données sur les personnes qui ont tendance à conduire au travail, tandis que le cluster B représente des données sur les personnes qui ont tendance à monter des vélos pour travailler.
L’algorithme de clustering diffère d’autres algorithmes d’exploration de données, tels que l’algorithme Microsoft Decision Trees, car vous n’avez pas besoin de désigner une colonne prévisible pour pouvoir générer un modèle de clustering. L’algorithme de clustering entraîne strictement le modèle à partir des relations qui existent dans les données et des clusters que l’algorithme identifie.
Example
Considérez un groupe de personnes qui partagent des informations démographiques similaires et qui achètent des produits similaires de la société Adventure Works. Ce groupe de personnes représente un cluster de données. Plusieurs clusters de ce type peuvent exister dans une base de données. En observant les colonnes qui composent un cluster, vous pouvez voir plus clairement comment les enregistrements d’un jeu de données sont liés les uns aux autres.
Fonctionnement de l’algorithme
L’algorithme Microsoft Clustering identifie d’abord les relations dans un jeu de données et génère une série de clusters en fonction de ces relations. Un nuage de points est un moyen utile de représenter visuellement la façon dont l’algorithme regroupe les données, comme illustré dans le diagramme suivant. Le nuage de points représente tous les cas dans le jeu de données, et chaque cas est un point sur le graphique. Les clusters regroupent des points sur le graphique et illustrent les relations que l’algorithme identifie.
Après avoir défini d’abord les clusters, l’algorithme calcule la façon dont les clusters représentent les regroupements des points, puis tente de redéfinir les regroupements pour créer des clusters qui représentent mieux les données. L’algorithme itère dans ce processus jusqu’à ce qu’il ne puisse pas améliorer davantage les résultats en redéfinissant les clusters.
Vous pouvez personnaliser le fonctionnement de l’algorithme en sélectionnant une technique de clustering, en limitant le nombre maximal de clusters ou en modifiant la quantité de prise en charge requise pour créer un cluster. Pour plus d’informations, consultez Microsoft Clustering Algorithm Technical Reference. cet algorithme comprend deux méthodes de clustering populaires : le clustering K-moyennes et la méthode d’optimisation des attentes.
Données requises pour les modèles de clustering
Lorsque vous préparez des données à utiliser pour l’apprentissage d’un modèle de clustering, vous devez comprendre les exigences de l’algorithme particulier, y compris la quantité de données nécessaires et la façon dont les données sont utilisées.
Les conditions requises pour un modèle de clustering sont les suivantes :
Une seule colonne clé Chaque modèle doit contenir une colonne numérique ou texte qui identifie de manière unique chaque enregistrement. Les clés composées ne sont pas autorisées.
Colonnes d’entrée Chaque modèle doit contenir au moins une colonne d’entrée qui contient les valeurs utilisées pour générer les clusters. Vous pouvez avoir autant de colonnes d’entrée que vous le souhaitez, mais en fonction du nombre de valeurs dans chaque colonne, l’ajout de colonnes supplémentaires peut augmenter le temps nécessaire pour entraîner le modèle.
Colonne prévisible facultative L’algorithme n’a pas besoin d’une colonne prédictible pour générer le modèle, mais vous pouvez ajouter une colonne prévisible de presque n’importe quel type de données. Les valeurs de la colonne prédictible peuvent être traitées comme une entrée dans le modèle de clustering, ou vous pouvez spécifier qu’elle est utilisée uniquement pour la prédiction. Par exemple, si vous souhaitez prédire le revenu des clients en mettant en cluster des données démographiques telles que la région ou l’âge, vous spécifiez le revenu comme PredictOnly et ajoutez toutes les autres colonnes, telles que la région ou l’âge, en tant qu’entrées.
Pour plus d’informations sur les types de contenu et les types de données pris en charge pour les modèles de clustering, consultez la section Configuration requise de Microsoft Clustering Algorithm Technical Reference.
Affichage d’un modèle de clustering
Pour explorer le modèle, vous pouvez utiliser la visionneuse de cluster Microsoft. Lorsque vous affichez un modèle de clustering, SQL Server Analysis Services vous montre les clusters d’un diagramme qui illustre les relations entre les clusters et fournit également un profil détaillé de chaque cluster, une liste des attributs qui distinguent chaque cluster des autres et les caractéristiques de l’ensemble des données d’apprentissage. Pour plus d'informations, consultez Parcourir un modèle à l'aide du visionneur de clusters Microsoft.
Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans l’arborescence de contenu générique Microsoft. Le contenu stocké pour le modèle inclut la distribution de toutes les valeurs de chaque nœud, la probabilité de chaque cluster et d’autres informations. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données).
Création de prédictions
Une fois le modèle entraîné, les résultats sont stockés sous la forme d’un ensemble de modèles, que vous pouvez explorer ou utiliser pour effectuer des prédictions.
Vous pouvez créer des requêtes pour retourner des prédictions sur l’adéquation des nouvelles données aux clusters découverts ou pour obtenir des statistiques descriptives sur les clusters.
Pour plus d’informations sur la création de requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle de clustering, consultez Exemples de requêtes de modèle de clustering.
Remarques
Prend en charge l’utilisation de PMML (Predictive Model Markup Language) pour créer des modèles d’exploration de données.
Prend en charge l’extraction.
Prend en charge l’utilisation de modèles d’exploration de données OLAP et la création de dimensions d’exploration de données.
Voir aussi
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Informations techniques de référence sur l’algorithme de clustering Microsoft
Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)
Exemples de requêtes de modèle de clustering