Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à :
SQL Server 2019 et versions antérieures d’Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.
L’exploration de données est le processus de découverte d’informations exploitables à partir de grands ensembles de données. L’exploration de données utilise l’analyse mathématique pour dériver des modèles et des tendances qui existent dans les données. En règle générale, ces modèles ne peuvent pas être découverts par l’exploration de données traditionnelle, car les relations sont trop complexes ou parce qu’il y a trop de données.
Ces modèles et tendances peuvent être collectés et définis en tant que modèle d’exploration de données. Les modèles d’exploration de données peuvent être appliqués à des scénarios spécifiques, tels que :
Prévision : estimation des ventes, prédiction des charges de serveur ou temps d’arrêt du serveur
Risque et probabilité : choix des meilleurs clients pour les publipostages ciblés, détermination du point d’arrêt probable pour les scénarios de risque, affectation de probabilités à des diagnostics ou à d’autres résultats
Recommandations : Détermination des produits susceptibles d’être vendus ensemble, en générant des recommandations
Séquences de recherche : analyse des sélections des clients dans un panier d’achat, en prédisant les événements probables suivants
Regroupement : séparation des clients ou des événements en cluster d’éléments connexes, analyse et prédiction des affinités
La création d’un modèle d’exploration de données fait partie d’un processus plus large qui inclut tout ce qui peut aller de poser des questions sur les données et de créer un modèle pour répondre à ces questions, au déploiement du modèle dans un environnement de travail. Ce processus peut être défini à l’aide des six étapes de base suivantes :
Le diagramme suivant décrit les relations entre chaque étape du processus et les technologies de Microsoft SQL Server que vous pouvez utiliser pour effectuer chaque étape.
de
Le processus illustré dans le diagramme est cyclique, ce qui signifie que la création d’un modèle d’exploration de données est un processus dynamique et itératif. Après avoir exploré les données, vous pouvez constater que les données sont insuffisantes pour créer les modèles d’exploration de données appropriés et que vous devez donc rechercher davantage de données. Vous pouvez également créer plusieurs modèles, puis réaliser que les modèles ne répondent pas adéquatement au problème que vous avez défini et que vous devez donc redéfinir le problème. Vous devrez peut-être mettre à jour les modèles une fois qu’ils ont été déployés, car davantage de données sont disponibles. Chaque étape du processus peut avoir besoin d’être répétée plusieurs fois pour créer un bon modèle.
Microsoft SQL Server Data Mining fournit un environnement intégré pour la création et l’utilisation de modèles d’exploration de données. Cet environnement inclut SQL Server Development Studio, qui contient des algorithmes d’exploration de données et des outils de requête qui facilitent la création d’une solution complète pour divers projets et SQL Server Management Studio, qui contient des outils pour parcourir des modèles et gérer des objets d’exploration de données. Pour plus d’informations, consultez Création de modèles multidimensionnels à l’aide de SQL Server Data Tools (SSDT).
Pour obtenir un exemple de la façon dont les outils SQL Server peuvent être appliqués à un scénario métier, consultez le didacticiel d’exploration de données de base.
Définition du problème
La première étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à définir clairement le problème et à prendre en compte les façons dont les données peuvent être utilisées pour fournir une réponse au problème.
Cette étape inclut l’analyse des exigences métier, la définition de l’étendue du problème, la définition des métriques par lesquelles le modèle sera évalué et la définition d’objectifs spécifiques pour le projet d’exploration de données. Ces tâches se traduisent en questions telles que les suivantes :
Qu’est-ce que tu cherches? Quels types de relations essayez-vous de trouver ?
Le problème que vous essayez de résoudre reflète-t-il les stratégies ou les processus de l’entreprise ?
Voulez-vous effectuer des prédictions à partir du modèle d’exploration de données, ou recherchez simplement des modèles et des associations intéressants ?
Quel résultat ou attribut voulez-vous essayer de prédire ?
Quel type de données avez-vous et quel type d’informations se trouve dans chaque colonne ? S’il existe plusieurs tables, comment les tables sont-elles associées ? Avez-vous besoin d’effectuer un nettoyage, une agrégation ou un traitement pour rendre les données utilisables ?
Comment les données sont-elles distribuées ? Les données sont-elles saisonnières ? Les données représentent-elles avec précision les processus de l’entreprise ?
Pour répondre à ces questions, vous devrez peut-être effectuer une étude de disponibilité des données pour examiner les besoins des utilisateurs professionnels en ce qui concerne les données disponibles. Si les données ne prennent pas en charge les besoins des utilisateurs, vous devrez peut-être redéfinir le projet.
Vous devez également prendre en compte les façons dont les résultats du modèle peuvent être incorporés dans des indicateurs de performance clés (KPI) utilisés pour mesurer la progression de l’entreprise.
Préparation des données
La deuxième étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à consolider et nettoyer les données identifiées dans l’étape Définition du problème .
Les données peuvent être dispersées dans une entreprise et stockées dans différents formats, ou peuvent contenir des incohérences telles que des entrées incorrectes ou manquantes. Par exemple, les données peuvent montrer qu’un client a acheté un produit avant qu'il ne soit proposé sur le marché, ou que le client fait régulièrement ses courses dans un magasin situé à 3 218 kilomètres de chez elle.
Le nettoyage des données ne consiste pas seulement à supprimer des données incorrectes ou à interpoler des valeurs manquantes, mais à rechercher des corrélations masquées dans les données, à identifier les sources de données les plus précises et à déterminer les colonnes les plus appropriées à utiliser dans l’analyse. Par exemple, devez-vous utiliser la date d’expédition ou la date de commande ? Est-ce que le meilleur influenceur sur les ventes est la quantité, le prix total ou un prix réduit ? Les données incomplètes, les données incorrectes et les entrées qui s’affichent séparément, mais en fait sont fortement corrélées, toutes peuvent influencer les résultats du modèle de manière à ce que vous ne vous attendiez pas.
Par conséquent, avant de commencer à créer des modèles d’exploration de données, vous devez identifier ces problèmes et déterminer la façon dont vous les corrigerez. Pour l’exploration de données, vous travaillez généralement avec un jeu de données très volumineux et ne pouvez pas examiner chaque transaction pour la qualité des données ; Par conséquent, vous devrez peut-être utiliser une forme de profilage des données et d’outils de nettoyage et de filtrage automatisés des données, tels que ceux fournis dans Integration Services, Microsoft SQL Server 2012 Master Data Services ou SQL Server Data Quality Services pour explorer les données et trouver les incohérences. Pour plus d’informations, consultez ces ressources :
Il est important de noter que les données que vous utilisez pour l’exploration de données n’ont pas besoin d’être stockées dans un cube OLAP (Online Analytical Processing), ou même dans une base de données relationnelle, bien que vous puissiez les utiliser comme sources de données. Vous pouvez effectuer une exploration de données à l’aide de n’importe quelle source de données qui a été définie comme source de données SQL Server Analysis Services. Il peut s’agir de fichiers texte, de classeurs Excel ou de données provenant d’autres fournisseurs externes. Pour plus d’informations, consultez Sources de données prises en charge (SSAS - Multidimensionnel).
Exploration des données
La troisième étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à explorer les données préparées.
Vous devez comprendre les données pour prendre les décisions appropriées lorsque vous créez les modèles d’exploration de données. Les techniques d’exploration incluent le calcul des valeurs minimales et maximales, le calcul des écarts moyens et standard et l’examen de la distribution des données. Par exemple, vous pouvez déterminer en examinant les valeurs maximales, minimales et moyennes que les données ne sont pas représentatives de vos clients ou processus métier, et que vous devez donc obtenir des données plus équilibrées ou examiner les hypothèses qui constituent la base de vos attentes. Les écarts types et d’autres valeurs de distribution peuvent fournir des informations utiles sur la stabilité et la précision des résultats. Un écart type important peut indiquer que l’ajout de données supplémentaires peut vous aider à améliorer le modèle. Les données qui s’écartent fortement d’une distribution standard peuvent être asymétriques ou peuvent représenter une image précise d’un problème réel, mais rendent difficile l’ajustement d’un modèle aux données.
En explorant les données à la lumière de votre propre compréhension du problème métier, vous pouvez décider si le jeu de données contient des données défectueuses, puis vous pouvez concevoir une stratégie pour résoudre les problèmes ou obtenir une compréhension plus approfondie des comportements typiques de votre entreprise.
Vous pouvez utiliser des outils tels que Master Data Services pour recenser les sources de données disponibles et déterminer leur aptitude à l'exploration de données. Vous pouvez utiliser des outils tels que SQL Server Data Quality Services ou le Profileur de données dans Integration Services pour analyser la distribution de vos données et résoudre les problèmes tels que des données incorrectes ou manquantes.
Une fois que vous avez défini vos sources, vous les combinez dans une vue de source de données à l’aide du Concepteur de vues de source de données dans SQL Server Data Tools. Pour plus d’informations, consultez Vues de source de données dans les modèles multidimensionnels. Ce concepteur contient également plusieurs outils que vous pouvez utiliser pour explorer les données et vérifier qu’elles fonctionneront pour créer un modèle. Pour plus d’informations, consultez Explorer les données dans une vue de source de données (Analysis Services).
Notez que lorsque vous créez un modèle, SQL Server Analysis Services crée automatiquement des résumés statistiques des données contenues dans le modèle, que vous pouvez interroger pour les utiliser dans des rapports ou une analyse plus approfondie. Pour plus d’informations, consultez Requêtes d’exploration de données.
Création de modèles
La quatrième étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à créer le modèle ou les modèles d’exploration de données. Vous allez utiliser les connaissances que vous avez acquises dans l’étape Exploration des données pour vous aider à définir et à créer les modèles.
Vous définissez les colonnes de données que vous souhaitez utiliser en créant une structure d’exploration de données. La structure d'exploration de données est liée à la source de données, mais elle ne contient pas réellement de données tant que vous ne la traitez pas. Lorsque vous traitez la structure d’exploration de données, SQL Server Analysis Services génère des agrégats et d’autres informations statistiques qui peuvent être utilisées pour l’analyse. Ces informations peuvent être utilisées par n’importe quel modèle d’exploration de données basé sur la structure. Pour plus d’informations sur la façon dont les structures d’exploration de données sont liées aux modèles d’exploration de données, consultez Architecture logique (Analysis Services - Exploration de données).
Avant le traitement de la structure et du modèle, un modèle d’exploration de données est également un conteneur qui spécifie les colonnes utilisées pour l’entrée, l’attribut que vous prévoyez et les paramètres qui indiquent à l’algorithme comment traiter les données. Le traitement d’un modèle est souvent appelé entraînement. L’entraînement fait référence au processus d’application d’un algorithme mathématique spécifique aux données de la structure afin d’extraire des modèles. Les modèles que vous trouvez dans le processus d’apprentissage dépendent de la sélection des données d’apprentissage, de l’algorithme que vous avez choisi et de la façon dont vous avez configuré l’algorithme. SQL Server 2017 contient de nombreux algorithmes différents, chacun adapté à un type de tâche différent et chacun créant un type de modèle différent. Pour obtenir la liste des algorithmes fournis dans SQL Server 2017, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données).
Vous pouvez également utiliser des paramètres pour ajuster chaque algorithme, et vous pouvez appliquer des filtres aux données d’apprentissage pour utiliser uniquement un sous-ensemble des données, en créant des résultats différents. Après avoir transmis des données au modèle, l’objet de modèle d’exploration de données contient des résumés et des modèles qui peuvent être interrogés ou utilisés pour la prédiction.
Vous pouvez définir un nouveau modèle à l’aide de l’Assistant Exploration de données dans SQL Server Data Tools ou à l’aide du langage DMX (Data Mining Extensions). Pour plus d’informations sur l’utilisation de l’Assistant Exploration de données, consultez l’Assistant Exploration de données (Analysis Services - Exploration de données). Pour plus d’informations sur l’utilisation de DMX, consultez Référence des extensions d’exploration de données (DMX).
Il est important de se rappeler que chaque fois que les données changent, vous devez mettre à jour la structure d’exploration de données et le modèle d’exploration de données. Lorsque vous mettez à jour une structure d’exploration de données en la retraiteant, SQL Server Analysis Services récupère les données de la source, y compris les nouvelles données si la source est mise à jour dynamiquement et remplit à nouveau la structure d’exploration de données. Si vous avez des modèles basés sur la structure, vous pouvez choisir de mettre à jour les modèles basés sur la structure, ce qui signifie qu’ils sont réentraînés sur les nouvelles données, ou vous pouvez laisser les modèles tels quels. Pour plus d’informations, consultez Exigences et considérations relatives au traitement (exploration de données).
Exploration et validation de modèles
La cinquième étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à explorer les modèles d’exploration de données que vous avez créés et à tester leur efficacité.
Avant de déployer un modèle dans un environnement de production, vous devez tester le fonctionnement du modèle. En outre, lorsque vous créez un modèle, vous créez généralement plusieurs modèles avec différentes configurations et testez tous les modèles pour voir quels sont les meilleurs résultats pour votre problème et vos données.
SQL Server Analysis Services fournit des outils qui vous aident à séparer vos données en jeux de données d’apprentissage et de test afin de pouvoir évaluer avec précision les performances de tous les modèles sur les mêmes données. Vous utilisez le jeu de données d’entraînement pour générer le modèle et le jeu de données de test pour tester la précision du modèle en créant des requêtes de prédiction. Ce partitionnement peut être effectué automatiquement lors de la génération du modèle d’exploration de données. Pour plus d’informations, consultez Test et validation (exploration de données).
Vous pouvez explorer les tendances et les modèles que les algorithmes découvrent à l’aide des visionneuses du Concepteur d’exploration de données dans SQL Server Data Tools. Pour plus d’informations, consultez Visionneuses de modèles d’exploration de données. Vous pouvez également tester la façon dont les modèles effectuent des prédictions à l'aide d'outils du concepteur, tels que le graphique de lift et la matrice de classification. Pour vérifier si le modèle est spécifique à vos données ou peut être utilisé pour effectuer des inférences sur la population générale, vous pouvez utiliser la technique statistique appelée validation croisée pour créer automatiquement des sous-ensembles des données et tester le modèle sur chaque sous-ensemble . Pour plus d’informations, consultez Test et validation (exploration de données).
Si aucun des modèles que vous avez créés à l’étape Building Models ne fonctionne correctement, vous devrez peut-être revenir à une étape précédente du processus et redéfinir le problème ou réinvestir les données dans le jeu de données d’origine.
Déploiement et mise à jour de modèles
La dernière étape du processus d’exploration de données, comme indiqué dans le diagramme suivant, consiste à déployer les modèles qui ont effectué le meilleur dans un environnement de production.
Une fois que les modèles d’exploration de données existent dans un environnement de production, vous pouvez effectuer de nombreuses tâches en fonction de vos besoins. Voici quelques-unes des tâches que vous pouvez effectuer :
Utilisez les modèles pour créer des prédictions, que vous pouvez ensuite utiliser pour prendre des décisions métier. SQL Server fournit le langage DMX que vous pouvez utiliser pour créer des requêtes de prédiction et le Générateur de requêtes de prédiction pour vous aider à générer les requêtes. Pour plus d’informations, consultez Guide de référence du langage DMX (Data Mining Extensions).
Créez des requêtes de contenu pour récupérer des statistiques, des règles ou des formules à partir du modèle. Pour plus d’informations, consultez Requêtes d’exploration de données.
Incorporer des fonctionnalités d’exploration de données directement dans une application. Vous pouvez inclure AMO (Analysis Management Objects), qui contient un ensemble d’objets que votre application peut utiliser pour créer, modifier, traiter et supprimer des structures d’exploration de données et des modèles d’exploration de données. Vous pouvez également envoyer des messages XML for Analysis (XMLA) directement à une instance de SQL Server Analysis Services. Pour plus d’informations, consultez Développement (Analysis Services - Exploration de données).
Utilisez Integration Services pour créer un package dans lequel un modèle d’exploration de données est utilisé pour séparer intelligemment les données entrantes dans plusieurs tables. Par exemple, si une base de données est continuellement mise à jour avec des clients potentiels, vous pouvez utiliser un modèle d’exploration de données avec Integration Services pour fractionner les données entrantes en clients susceptibles d’acheter un produit et des clients susceptibles de ne pas acheter de produit. Pour plus d’informations, consultez Utilisations classiques d’Integration Services.
Créez un rapport qui permet aux utilisateurs d’interroger directement sur un modèle d’exploration de données existant. Pour plus d’informations, consultez Reporting Services dans SQL Server Data Tools (SSDT).
Mettez à jour les modèles après révision et analyse. Toute mise à jour nécessite qu'il faut traiter à nouveau les modèles. Pour plus d’informations, consultez Traitement des objets d’exploration de données.
Mettez à jour les modèles de manière dynamique, car davantage de données entrent dans l’organisation et apportez des modifications constantes pour améliorer l’efficacité de la solution doit faire partie de la stratégie de déploiement. Pour plus d’informations, consultez Gestion des solutions et objets d’exploration de données
Voir aussi
Solutions d’exploration de données
Outils d’exploration de données