Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à :
SQL Server 2019 et versions antérieures d’Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.
L’algorithme Microsoft Sequence Clustering est un algorithme unique qui combine l’analyse de séquences avec le clustering. Vous pouvez utiliser cet algorithme pour explorer les données qui contiennent des événements pouvant être liés dans une séquence. L’algorithme recherche les séquences les plus courantes et effectue un clustering pour rechercher des séquences similaires. Les exemples suivants illustrent les types de séquences que vous pouvez capturer en tant que données pour le Machine Learning, afin de fournir des informations sur les problèmes courants ou les scénarios métier :
Flux de clics ou chemins d’accès générés lorsque les utilisateurs naviguent ou parcourent un site web
Journalise les événements qui précèdent un incident, par exemple une défaillance de disque dur ou un blocage du serveur
Enregistrements de transactions qui décrivent l’ordre dans lequel un client ajoute des éléments à un panier d’achat en ligne
Enregistrements qui suivent les interactions des clients ou des patients au fil du temps, pour prédire les annulations de service ou d’autres résultats médiocres
Cet algorithme est similaire de plusieurs façons à l’algorithme Microsoft Clustering. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l’algorithme Microsoft Sequence Clustering recherche des clusters de cas qui contiennent des chemins similaires dans une séquence.
Example
Le site web Adventure Works Cycles collecte des informations sur les pages que les utilisateurs visitent et sur l’ordre dans lequel les pages sont visitées. Étant donné que l’entreprise fournit des commandes en ligne, les clients doivent se connecter au site. Cela fournit à l’entreprise des informations de clic pour chaque profil client. En utilisant l’algorithme Microsoft Sequence Clustering sur ces données, l’entreprise peut trouver des groupes ou des clusters, des clients qui ont des modèles ou des séquences de clics similaires. L’entreprise peut ensuite utiliser ces clusters pour analyser la façon dont les utilisateurs passent par le site Web, pour identifier les pages qui sont les plus étroitement liées à la vente d’un produit particulier et prédire les pages les plus susceptibles d’être visitées ultérieurement.
Fonctionnement de l’algorithme
L’algorithme Microsoft Sequence Clustering est un algorithme hybride qui combine les techniques de clustering avec l’analyse de chaîne Markov pour identifier les clusters et leurs séquences. L’une des caractéristiques de l’algorithme Microsoft Sequence Clustering est qu’elle utilise des données de séquence. Ces données représentent généralement une série d’événements ou de transitions entre les états d’un jeu de données, comme une série d’achats de produits ou de clics web pour un utilisateur particulier. L’algorithme examine toutes les probabilités de transition et mesure les différences, ou distances, entre toutes les séquences possibles dans le jeu de données afin de déterminer quelles séquences sont les meilleures à utiliser comme entrées pour le clustering. Une fois l’algorithme créé la liste des séquences candidates, il utilise les informations de séquence comme entrée pour le clustering à l’aide de l’optimisation des attentes (EM).
Pour obtenir une description détaillée de l’implémentation, consultez Microsoft Sequence Clustering Algorithm Technical Reference.
Données requises pour les modèles de clustering de séquence
Lorsque vous préparez des données à utiliser lors de l’apprentissage d’un modèle de clustering de séquences, vous devez comprendre les exigences de l’algorithme particulier, y compris la quantité de données nécessaires et la façon dont les données sont utilisées.
Les conditions requises pour un modèle de clustering de séquence sont les suivantes :
Une seule colonne clé Un modèle de clustering de séquences nécessite une clé qui identifie les enregistrements.
Colonne de séquence Pour les données de séquence, le modèle doit avoir une table imbriquée qui contient une colonne d’ID de séquence. L’ID de séquence peut être n’importe quel type de données triable. Par exemple, vous pouvez utiliser un identificateur de page Web, un entier ou une chaîne de texte, tant que la colonne identifie les événements dans une séquence. Un seul identificateur de séquence est autorisé pour chaque séquence, et un seul type de séquence est autorisé dans chaque modèle.
Attributs non séquentiels facultatifs L’algorithme prend en charge l’ajout d’autres attributs qui ne sont pas liés au séquencement. Ces attributs peuvent inclure des colonnes imbriquées.
Par exemple, dans l’exemple cité précédemment du site Web Adventure Works Cycles, un modèle de clustering de séquences peut inclure des informations de commande comme table de cas, des données démographiques sur le client spécifique pour chaque commande en tant qu’attributs non séquentiels et une table imbriquée contenant la séquence dans laquelle le client a parcouru le site ou placé des éléments dans un panier d’achat comme informations de séquence.
Pour plus d’informations sur les types de contenu et les types de données pris en charge pour les modèles de clustering de séquences, consultez la section Exigences de l’algorithme microsoft Sequence Clustering Technical Reference.
Affichage d’un modèle de clustering de séquences
Le modèle d’exploration de données créé par cet algorithme contient des descriptions des séquences les plus courantes dans les données. Pour explorer le modèle, vous pouvez utiliser la visionneuse du cluster Microsoft Sequence. Lorsque vous affichez un modèle de clustering de séquences, SQL Server Analysis Services vous montre des clusters qui contiennent plusieurs transitions. Vous pouvez également afficher les statistiques pertinentes. Pour plus d’informations, consultez Parcourir un modèle à l’aide de la visionneuse de clusters de séquences de Microsoft.
Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans l’arborescence de contenu générique Microsoft. Le contenu stocké pour le modèle inclut la distribution de toutes les valeurs de chaque nœud, la probabilité de chaque cluster et les détails sur les transitions. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering de séquence (Analysis Services - Exploration de données).
Création de prédictions
Une fois le modèle entraîné, les résultats sont stockés sous la forme d’un ensemble de modèles. Vous pouvez utiliser les descriptions des séquences les plus courantes dans les données pour prédire l’étape probable suivante d’une nouvelle séquence. Toutefois, étant donné que l’algorithme inclut d’autres colonnes, vous pouvez utiliser le modèle résultant pour identifier les relations entre les données séquencées et les entrées qui ne sont pas séquentielles. Par exemple, si vous ajoutez des données démographiques au modèle, vous pouvez effectuer des prédictions pour des groupes spécifiques de clients. Les requêtes de prédiction peuvent être personnalisées pour retourner un nombre variable de prédictions ou pour retourner des statistiques descriptives.
Pour plus d’informations sur la création de requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle de clustering de séquences, consultez Exemples de requêtes de modèle de clustering de séquence.
Remarques
Ne prend pas en charge l’utilisation de PMML (Predictive Model Markup Language) pour créer des modèles d’exploration de données.
Prend en charge l’extraction.
Prend en charge l’utilisation de modèles d’exploration de données OLAP et la création de dimensions d’exploration de données.
Voir aussi
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Informations techniques de référence sur l’algorithme de clustering de séquences Microsoft
Exemples de requêtes de modèle de groupement de séquence
Parcourir un modèle à l’aide du visionneur de groupes de séquences Microsoft