Partager via


Projets d’exploration de données

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.

Un projet d’exploration de données fait partie d’une solution SQL Server Analysis Services. Pendant le processus de conception, les objets que vous créez dans ce projet sont disponibles pour le test et l’interrogation dans le cadre d’une base de données d’espace de travail. Lorsque vous souhaitez que les utilisateurs puissent interroger ou parcourir les objets du projet, vous devez déployer le projet sur une instance de SQL Server Analysis Services s’exécutant en mode multidimensionnel.

Cette rubrique vous fournit les informations de base nécessaires pour comprendre et créer des projets d’exploration de données.

Création de projets d’exploration de données

Objets dans les projets d’exploration de données

Utilisation du projet d’exploration de données terminé

Accès programmatique aux projets d’exploration de données

Création de projets d’exploration de données

Dans SQL Server Data Tools, vous créez des projets d’exploration de données à l’aide du modèle, olAP et du projet d’exploration de données. Vous pouvez également créer des projets d’exploration de données par programmation à l’aide d’AMO. Les objets d’exploration de données individuels peuvent être scriptés à l’aide du langage de script Analysis Services (ASSL). Pour plus d’informations, consultez Accès aux données du modèle multidimensionnel (Analysis Services - Données multidimensionnelles).

Si vous créez un projet d’exploration de données au sein d’une solution existante, par défaut, les objets d’exploration de données sont déployés sur une base de données SQL Server Analysis Services portant le même nom que le fichier de solution. Vous pouvez modifier ce nom et le serveur cible à l’aide de la boîte de dialogue Propriétés du projet . Pour plus d’informations, consultez Configurer les propriétés du projet Analysis Services (SSDT).

Avertissement

Pour générer et déployer correctement votre projet, vous devez avoir accès à une instance de SQL Server Analysis Services qui s’exécute en mode OLAP/Exploration de données. Vous ne pouvez pas développer ou déployer des solutions d’exploration de données sur une instance de SQL Server Analysis Services qui prend en charge les modèles tabulaires, ni utiliser des données directement à partir d’un classeur Power Pivot ou d’un modèle tabulaire qui utilise le magasin de données en mémoire. Pour déterminer si l’instance de SQL Server Analysis Services que vous avez peut prendre en charge l’exploration de données, consultez Déterminer le mode serveur d’une instance Analysis Services.

Dans chaque projet d’exploration de données que vous créez, procédez comme suit :

  1. Choisissez une source de données, telle qu’un cube, une base de données, ou même des fichiers Excel ou texte, qui contient les données brutes que vous utiliserez pour créer des modèles.

  2. Définissez un sous-ensemble des données de la source de données à utiliser pour l’analyse et enregistrez-les en tant que vue de source de données.

  3. Définissez une structure d’exploration de données pour prendre en charge la modélisation.

  4. Ajoutez des modèles d’exploration de données à la structure d’exploration de données, en choisissant un algorithme et en spécifiant la façon dont l’algorithme gère les données.

  5. Entraîner des modèles en les remplissant avec les données sélectionnées ou un sous-ensemble filtré des données.

  6. Explorez, testez et régénérez des modèles.

Une fois le projet terminé, vous pouvez le déployer pour que les utilisateurs puissent parcourir ou interroger, ou fournir un accès programmatique aux modèles d’exploration de données dans une application, pour prendre en charge les prédictions et l’analyse.

Objets dans les projets d’exploration de données

Tous les projets d’exploration de données contiennent les quatre types d’objets suivants. Vous pouvez avoir plusieurs objets de tous les types.

  • Sources de données

  • Vues de source de données

  • Structures d’exploration de données

  • Modèles d’exploration de données

Par exemple, un projet d’exploration de données unique peut contenir une référence à plusieurs sources de données, chaque source de données prenant en charge plusieurs vues de source de données. À son tour, chaque vue de source de données peut prendre en charge plusieurs structures d’exploration de données, chacune avec de nombreux modèles d’exploration de données associés.

En outre, votre projet peut inclure des algorithmes de plug-in, des assemblys personnalisés ou des procédures stockées personnalisées ; toutefois, ces objets ne sont pas décrits ici. Pour plus d’informations, consultez la documentation relative aux développeurs Analysis Services.

Sources de données

La source de données définit la chaîne de connexion et les informations d’authentification que le serveur SQL Server Analysis Services utilisera pour se connecter à la source de données. La source de données peut contenir plusieurs tables ou vues ; il peut être aussi simple qu’un classeur Excel unique ou un fichier texte, ou aussi complexe qu’une base de données OLAP (Online Analytical Processing) ou une base de données relationnelle volumineuse.

Un projet d’exploration de données unique peut référencer plusieurs sources de données. Même si un modèle d’exploration de données ne peut utiliser qu’une seule source de données à la fois, le projet peut avoir plusieurs modèles s’appuyant sur différentes sources de données.

SQL Server Analysis Services prend en charge les données de nombreux fournisseurs externes, et SQL Server Data Mining peut utiliser les données relationnelles et de cube OLAP comme source de données. Toutefois, si vous développez les deux types de modèles de projets basés sur des sources relationnelles et des modèles basés sur des cubes OLAP, vous souhaiterez peut-être développer et gérer ces modèles dans des projets distincts.

  • En règle générale, les modèles basés sur un cube OLAP doivent être développés dans la solution de conception OLAP. L’une des raisons est que les modèles basés sur un cube doivent traiter le cube pour mettre à jour les données. En règle générale, vous devez utiliser des données de cube uniquement quand il s’agit du principal moyen de stockage et d’accès aux données, ou lorsque vous avez besoin des agrégations, dimensions et attributs créés par le projet multidimensionnel.

  • Si votre projet utilise uniquement des données relationnelles, vous devez créer les modèles relationnels au sein d’un projet distinct afin de ne pas retraiter inutilement d’autres objets. Dans de nombreux cas, la base de données intermédiaire ou l’entrepôt de données utilisé pour prendre en charge la création de cube contient déjà les vues nécessaires pour effectuer l’exploration de données, et vous pouvez utiliser ces vues pour l’exploration de données plutôt que d’utiliser les agrégations et les dimensions dans le cube.

  • Vous ne pouvez pas utiliser les données en mémoire ou Power Pivot directement pour créer des modèles d’exploration de données.

La source de données identifie uniquement le serveur ou le fournisseur et le type général de données. Si vous devez modifier la mise en forme et les agrégations des données, utilisez l’objet de vue de source de données.

Pour contrôler la façon dont les données de la source de données sont gérées, vous pouvez ajouter des colonnes ou des calculs dérivés, modifier des agrégats ou renommer des colonnes dans les données de la vue de source de données. (Vous pouvez également utiliser des données en aval, en modifiant des colonnes de structure d’exploration de données ou en utilisant des indicateurs de modélisation et des filtres au niveau de la colonne du modèle d’exploration de données.)

Si le nettoyage des données est nécessaire ou si les données de l’entrepôt de données doivent être modifiées pour créer des variables supplémentaires, modifier des types de données ou créer une autre agrégation, vous devrez peut-être créer des types de projet supplémentaires pour prendre en charge l’exploration de données. Pour plus d’informations sur ces projets connexes, consultez Projets connexes pour les solutions d’exploration de données.

Vues de source de données

Une fois que vous avez défini cette connexion à une source de données, vous créez une vue qui identifie les données spécifiques pertinentes pour votre modèle.

La vue de source de données vous permet également de personnaliser la façon dont les données de la source de données sont fournies au modèle d’exploration de données. Vous pouvez modifier la structure des données pour qu’elles soient plus pertinentes pour votre projet, ou choisir uniquement certains types de données.

Par exemple, à l’aide de l’éditeur de vue de source de données, vous pouvez :

  • Créez des colonnes dérivées, telles que des éléments de date, des sous-chaînes, etc.

  • Agréger des valeurs à l’aide d’instructions Transact-SQL telles que GROUP BY

  • Restreindre temporairement les données ou échantillonner des données

Pour plus d’informations sur la façon dont vous pouvez modifier des données dans une vue de source de données, consultez Vues de source de données dans les modèles multidimensionnels.

Avertissement

Si vous souhaitez filtrer les données, vous pouvez le faire dans la vue de source de données, mais vous pouvez également créer des filtres sur les données au niveau du modèle d’exploration de données. Étant donné que la définition de filtre est stockée avec le modèle d’exploration de données, l’utilisation de filtres de modèle facilite la détermination des données utilisées pour l’apprentissage du modèle. En outre, vous pouvez créer plusieurs modèles associés, avec différents critères de filtre. Pour plus d’informations, consultez Filtres pour les modèles d’exploration de données (Analysis Services - Exploration de données).

Notez que la vue de source de données que vous créez peut contenir des données supplémentaires qui ne sont pas directement utilisées pour l’analyse. Par exemple, vous pouvez ajouter à votre vue de source de données des données utilisées pour les tests, les prévisions ou l'analyse approfondie. Pour plus d’informations sur ces utilisations, consultez Test et Validation (Exploration de données) et Extraction.

Structures d’exploration de données

Une fois que vous avez créé votre source de données et votre vue de source de données, vous devez sélectionner les colonnes de données les plus pertinentes pour votre problème métier, en définissant des structures d’exploration de données dans le projet. Une structure d’exploration de données indique au projet les colonnes de données de la vue de la source de données qui doivent réellement être utilisées dans la modélisation, l’entraînement et les tests.

Pour ajouter une nouvelle structure d’exploration de données, vous démarrez Assistant Exploration de données. L’Assistant définit automatiquement une structure d’exploration de données, vous guide tout au long du processus de choix des données et vous permet éventuellement d’ajouter un modèle d’exploration de données initial à la structure. Dans la structure d’exploration de données, vous choisissez des tables et des colonnes à partir de la vue de source de données ou d’un cube OLAP et définissez les relations entre les tables, si vos données incluent des tables imbriquées.

La façon dont vos données apparaissent dans l'Assistant Exploration de données dépend fortement des sources de données que vous utilisez, qu'elles soient relationnelles ou issues du traitement analytique en ligne (OLAP).

  • Lorsque vous choisissez des données à partir d’une source de données relationnelle, la configuration d’une structure d’exploration de données est facile : vous choisissez des colonnes dans la vue de source de données et définissez des personnalisations supplémentaires telles que des alias ou définissez la façon dont les valeurs de la colonne doivent être regroupées ou binnées. Pour plus d’informations, consultez Créer une structure d’exploration de données relationnelle.

  • Lorsque vous utilisez des données à partir d’un cube OLAP, la structure d’exploration de données doit se trouver dans la même base de données que la solution OLAP. Pour créer une structure d’exploration de données, vous sélectionnez des attributs dans les dimensions et les mesures associées dans votre solution OLAP. Les valeurs numériques sont généralement trouvées dans les mesures et les variables catégorielles dans les dimensions. Pour plus d’informations, consultez Créer une structure d’exploration de données OLAP.

  • Vous pouvez également définir des structures d’exploration de données à l’aide de DMX. Pour plus d’informations, consultez Instructions de définition de données DMX (Data Mining Extensions).

Après avoir créé la structure d’exploration de données initiale, vous pouvez copier, modifier et donner un alias aux colonnes de la structure.

Chaque structure d’exploration de données peut contenir plusieurs modèles d’exploration de données. Par conséquent, une fois que vous avez terminé, vous pouvez rouvrir la structure d’exploration de données et utiliser le Concepteur d’exploration de données pour ajouter d’autres modèles d’exploration de données à la structure.

Vous avez également la possibilité de séparer vos données en un jeu de données d’apprentissage, utilisé pour créer des modèles et un jeu de données de blocage à utiliser lors du test ou de la validation de vos modèles d’exploration de données.

Avertissement

Certains types de modèles, tels que les modèles de série chronologique, ne permettent pas la création d'ensembles de données de validation, car ils nécessitent une série continue de données pour l’entraînement. Pour plus d’informations, consultez Ensembles de données de formation et de test.

Modèles d’exploration de données

Le modèle d’exploration de données définit l’algorithme ou la méthode d’analyse que vous utiliserez sur les données. Pour chaque structure de données, vous ajoutez un ou plusieurs modèles d'exploration.

Selon vos besoins, vous pouvez combiner de nombreux modèles dans un seul projet ou créer des projets distincts pour chaque type de tâche de modèle ou analytique.

Une fois que vous avez créé une structure et un modèle, vous traitez chaque modèle en exécutant les données de la vue de source de données via l’algorithme, ce qui génère un modèle mathématique des données. Ce processus est également appelé apprentissage du modèle. Pour plus d’informations, consultez Exigences et considérations relatives au traitement (exploration de données).

Une fois le modèle traité, vous pouvez ensuite explorer visuellement le modèle d’exploration de données et créer des requêtes de prédiction sur celui-ci. Si les données du processus d’apprentissage ont été mises en cache, vous pouvez utiliser des requêtes d’extraction pour retourner des informations détaillées sur les cas utilisés dans le modèle.

Lorsque vous souhaitez utiliser un modèle de production (par exemple, pour effectuer des prédictions ou pour l’exploration par des utilisateurs généraux), vous pouvez déployer le modèle sur un autre serveur. Si vous devez retraiter le modèle ultérieurement, vous devez également exporter la définition de la structure d’exploration de données sous-jacente (et, nécessairement, la définition de la source de données et de la vue de source de données) en même temps.

Lorsque vous déployez un modèle, vous devez également vous assurer que les options de traitement correctes sont définies sur la structure et le modèle, et que les utilisateurs potentiels disposent des autorisations nécessaires pour effectuer des requêtes, afficher des modèles ou effectuer des extractions pour structurer des données de modèle o. Pour plus d’informations, consultez Vue d’ensemble de la sécurité (exploration de données).

Utilisation du projet d’exploration de données terminé

Cette section récapitule les façons dont vous pouvez utiliser le projet d’exploration de données terminé. Vous pouvez créer des graphiques de précision, explorer et valider les données et rendre les modèles d’exploration de données accessibles aux utilisateurs.

Avertissement

Les graphiques, requêtes et visualisations que vous utilisez avec des modèles d’exploration de données ne sont pas enregistrés dans le cadre du projet d’exploration de données et ne peuvent pas être déployés. Si vous devez conserver ces objets, vous devez enregistrer le contenu présenté ou le scripter comme expliqué pour chaque objet.

Afficher et explorer des modèles

Une fois que vous avez créé un modèle, vous pouvez utiliser des outils visuels et des requêtes pour explorer les modèles du modèle et en savoir plus sur les modèles et statistiques sous-jacents. Sous l’onglet Visionneuse de modèles d’exploration de données dans le Concepteur d’exploration de données, SQL Server Analysis Services fournit des visionneuses pour chaque type de modèle d’exploration de données, que vous pouvez utiliser pour explorer les modèles d’exploration de données.

Ces visualisations sont temporaires et sont fermées sans enregistrer lorsque vous quittez la session avec SQL Server Analysis Services. Par conséquent, si vous devez exporter ces visualisations vers une autre application pour une présentation ou une analyse plus approfondie, utilisez les commandes copier fournies dans chaque onglet ou volet de l’interface de visionneuse.

Les compléments d’exploration de données pour Excel fournissent également un modèle Visio que vous pouvez utiliser pour représenter vos modèles dans un diagramme Visio et annoter et modifier le diagramme à l’aide d’outils Visio. Pour plus d’informations, consultez les compléments d’exploration de données Microsoft SQL Server 2008 SP2 pour Microsoft Office 2007.

Tester et valider des modèles

Une fois que vous avez créé un modèle, vous pouvez examiner les résultats et prendre des décisions sur les modèles qui fonctionnent le mieux.

SQL Server Analysis Services fournit plusieurs graphiques que vous pouvez utiliser pour fournir des outils que vous pouvez utiliser pour comparer directement des modèles d’exploration de données et choisir le modèle d’exploration de données le plus précis ou utile. Ces outils incluent un graphique de valeur de levée, un graphique de bénéfices et une matrice de classification. Vous pouvez générer ces graphiques à l’aide de l’onglet Graphique de précision de l’exploration de données du Concepteur d’exploration de données.

Vous pouvez également utiliser le rapport de validation croisée pour effectuer un sous-échantillonnage itératif de vos données pour déterminer si le modèle est biaisé à un ensemble particulier de données. Les statistiques que le rapport fournit peuvent être utilisées pour comparer objectivement les modèles et évaluer la qualité de vos données d’apprentissage.

Notez que ces rapports et graphiques ne sont pas stockés avec le projet ou dans la base de données ssASnoversion. Par conséquent, si vous devez conserver ou dupliquer les résultats, vous devez enregistrer les résultats, ou générer un script sur les objets à l’aide de DMX ou AMO. Vous pouvez également utiliser des procédures stockées pour la validation croisée.

Pour plus d’informations, consultez Test et validation (exploration de données).

Créer des prédictions

SQL Server Analysis Services fournit un langage de requête appelé DMX (Data Mining Extensions) qui est la base de la création de prédictions et est facilement scriptable. Pour vous aider à générer des requêtes de prédiction DMX, SQL Server fournit un générateur de requêtes disponible dans SQL Server Management Studio. Il existe également de nombreux modèles DMX pour l’éditeur de requête dans SQL Server Management Studio. Si vous débutez avec les requêtes de prédiction, nous vous recommandons d’utiliser le générateur de requêtes fourni dans le Concepteur d’exploration de données et SQL Server Management Studio. Pour plus d’informations, consultez Outils d’exploration de données.

Les prédictions que vous créez dans SQL Server Data Tools ou SQL Server Management Studio ne sont pas conservées. Par conséquent, si vos requêtes sont complexes ou que vous devez reproduire les résultats, nous vous recommandons d’enregistrer vos requêtes de prédiction dans des fichiers de requête DMX, de les scripter ou d’incorporer les requêtes dans le cadre d’un package Integration Services.

Accès programmatique aux objets d’exploration de données

SQL Server Analysis Services fournit plusieurs outils que vous pouvez utiliser pour travailler par programmation avec des projets d’exploration de données et les objets qu’ils contiennent. Le langage DMX fournit des instructions que vous pouvez utiliser pour créer des sources de données et des vues de source de données, et pour créer, entraîner et utiliser la structure et les modèles d’exploration de données. Pour plus d’informations, consultez Guide de référence du langage DMX (Data Mining Extensions).

Vous pouvez également effectuer ces tâches à l’aide du langage de script Analysis Services (ASSL) ou à l’aide d’AMO (Analysis Management Objects). Pour plus d’informations, consultez Développement avec XMLA dans Analysis Services.

Les rubriques suivantes décrivent l’utilisation de l’Assistant Exploration de données pour créer un projet d’exploration de données et des objets associés.

Tasks Sujets
Décrit comment utiliser des colonnes de structure d’exploration de données Créer une structure d’exploration de données relationnelle
Fournit plus d’informations sur l’ajout de nouveaux modèles d’exploration de données et le traitement d’une structure et de plusieurs modèles. Ajouter des modèles d’exploration de données à une structure (Analysis Services - Exploration de données)
Fournit des liens vers des ressources qui vous aident à personnaliser les algorithmes qui créent des modèles d’exploration de données Personnaliser les modèles et la structure d’exploration de données
Fournit des liens vers des informations sur chacune des visionneuses de modèles d’exploration de données Visionneuses du modèle d’exploration de données
Découvrez comment créer un graphique lift, un graphique de profit ou une matrice de classification, ou tester une structure de minage de données. Test et validation (exploration de données)
En savoir plus sur les options de traitement et les autorisations Traitement des objets d’exploration de données
Fournit plus d’informations sur Analysis Services Bases de données de modèle multidimensionnel

Voir aussi

Concepteur d’exploration de données
Création de modèles multidimensionnels à l’aide de SQL Server Data Tools (SSDT)
Base de données d’espace de travail