Créer une structure d’exploration de données (compléments d’exploration de données SQL Server)

Bouton Créer une structure d'exploration de données, ruban Exploration de données

Utilisez l’option Avancé dans le groupe Modélisation des données lorsque vous souhaitez créer un jeu de données utilisé pour l’analyse sans nécessairement créer de modèle. Cela est utile lorsque vous souhaitez expérimenter différents algorithmes.

Après avoir créé la structure d’exploration de données, utilisez l’assistant Ajouter un modèle à la structure pour créer un modèle basé sur cette structure. Vous pouvez également créer de nouveaux modèles à l’aide de l’éditeur de requête avancé d’exploration de données.

Vous pouvez également utiliser cette option lorsque vous envisagez de créer des modèles à l’aide de l’un des algorithmes avancés pris en charge par Analysis Services, mais pas disponibles via un Assistant, tel que la régression linéaire ou le clustering de séquences, ou si vous utilisez un algorithme personnalisé.

Remarque

Lorsque vous créez la structure d’exploration de données, vous pouvez également établir un jeu de données de test sélectionné de manière aléatoire que vous pouvez utiliser pour valider tous vos modèles. Cela est pratique, car vous pouvez facilement comparer la précision du modèle à un jeu de données commun. Sélectionnez simplement l’option, fractionnez les données en jeux d’entraînement et de test et spécifiez un pourcentage approprié de données à réserver pour les tests, généralement environ 30 %.

Utiliser l’Assistant pour créer une structure d’exploitation de données

Dans le ruban Exploration de données , cliquez sur Avancé, puis sélectionnez Créer une structure.
Dans la boîte de dialogue Sélectionner des données sources , spécifiez la plage Excel, la table de données Excel ou la source de données externe qui contient les données que vous souhaitez utiliser pour l’analyse.

Cliquez sur Suivant.
Dans la boîte de dialogue Sélectionner des colonnes , passez en revue la liste des colonnes disponibles dans la source de données sélectionnée.
Cliquez sur la flèche à droite du nom de colonne pour modifier l’utilisation de la colonne, en choisissant parmi ces valeurs :
- Clé : Au moins une clé est requise pour chaque modèle.
- Heure clé. Cette option est disponible uniquement pour les modèles de prévision, où elle est requise.
- Inclure. Indique que la colonne doit être rendue disponible dans la structure d’exploration de données, mais n’est pas une colonne clé.
- N’utilisez pas. Indique que la colonne ne doit pas être incluse dans la structure d’exploration de données.
N’oubliez pas que vous pouvez toujours ignorer les colonnes lorsque vous générez le modèle, mais pour ajouter des colonnes ultérieurement, vous devez retraiter la structure et le modèle.
Cliquez sur le bouton Parcourir (...) pour définir le type de contenu, le type de données et les indicateurs de modélisation.

Remarque

Si la colonne contient des données numériques, vous devez toujours ouvrir cette boîte de dialogue pour vous assurer que le type de données correct est choisi. Dans certains cas, même si les données d’entrée sont un nombre, vous souhaiterez le traiter comme une variable catégorielle ou une valeur discrète, au lieu d’un nombre continu.

Par exemple, une colonne de code postal peut être répertoriée par défaut en tant que type de données long continu, mais pour obtenir de meilleurs résultats, vous pouvez spécifier qu’elle est gérée en tant que valeur de texte discrète.

Pour plus d’informations, consultez la section sur les types de contenu dans Choix des données pour l’exploration de données.

Cliquez sur OK pour fermer la boîte de dialogue.
Cliquez sur Suivant.

Selon le type de données que vous utilisez, vous pouvez terminer l’Assistant après cette étape. Dans ce cas, passez à la page Terminer pour nommer votre structure d’exploration de données.

Pour d’autres modèles, vous avez la possibilité supplémentaire de créer un jeu de données de test.
Dans la boîte de dialogue Fractionner les données en jeux de données d’apprentissage et de test , spécifiez la façon dont vous souhaitez partitionner vos données. Par défaut, 30 % des données sont utilisées pour les tests.

Si vous le souhaitez, tapez le nombre maximal de lignes à utiliser pour les tests.

Cliquez sur Suivant.
Dans la boîte de dialogue Terminer, tapez un nom et une description pour le nouveau modèle d'extraction de données.
Cliquez sur Terminer.

Choix	Commentaires
Boîte de dialogue Sélectionner les données sources	Lorsque vous sélectionnez un tableau Excel, vous devez indiquer si les données ont déjà des en-têtes. Si vous ignorez cela, la première ligne de données sera utilisée comme nom de colonne. Si vous utilisez l’option, source de données externe, vous pouvez utiliser n’importe quel type de données qui peut être défini dans une source de données Analysis Services. Toutefois, la boîte de dialogue du complément pour la création de nouvelles sources de données n’inclut pas la plage complète de sources de données prises en charge par Analysis Services. Nous vous recommandons donc de créer les sources de données sur le serveur Analysis Services à l’avance, puis de vous connecter à l’aide des compléments.
Boîte de dialogue Éditeur de requête de source de données	Une fois connecté à la source de données spécifiée, vous pouvez ajouter des colonnes ou créer une requête personnalisée pour générer des colonnes personnalisées.
Fractionner des données en jeux de données d’apprentissage et de test	Une valeur recommandée pour l’entraînement et les jeux de tests est de 70 pour cent pour l’entraînement et de 30 pour cent pour les tests ; Toutefois, si vous avez beaucoup de données, vous pouvez spécifier un nombre maximal de lignes à tester.
Terminer la boîte de dialogue	Les options de drillthrough sont disponibles pour certains types de modèles et sont très utiles si vous incluez des colonnes de détail dans votre structure d’analyse de données. Par exemple, si vous créez un modèle de clustering, vous pouvez inclure des détails tels que le nom ou l’adresse e-mail pour l’extraction, mais pas l’analyse, pour faciliter le contact des clients dans un cluster particulier.

Définition de l’utilisation des colonnes dans l’Assistant Création d’une structure d’exploration de données

Lorsque vous créez une structure d’exploration de données, vous pouvez spécifier les colonnes de la source de données qui doivent être incluses dans la structure d’exploration de données et la façon dont ces colonnes doivent être utilisées. N’oubliez pas qu’une structure d’exploration de données peut prendre en charge plusieurs modèles d’exploration de données.

Valeurs	Descriptif
Inclure	Spécifie que la colonne contient des données qui peuvent être utilisées pour l’analyse ou la prédiction.
Clé	Spécifie que la colonne contient un ID de transaction, un ID de série ou une autre clé requise pour le traitement. Tous les algorithmes nécessitent une colonne clé. Toutefois, certains algorithmes n’autorisent qu’une seule clé, tandis que d’autres autorisent plusieurs clés. Si la colonne contient une clé mais n’est pas requise pour le traitement, sélectionnez Ne pas utiliser.
Moment clé	Spécifie que la colonne contient une date ou une autre valeur numérique qui peut être utilisée pour identifier de manière unique les éléments d’une série chronologique.
Ne pas utiliser	Spécifie que la colonne doit être ignorée. Les données de la colonne ne seront pas traitées.

Pour traiter correctement un modèle, l’algorithme doit savoir quelle colonne est la colonne clé qui identifie de manière unique chaque ligne, colonne cible pour créer des prédictions si vous créez un modèle prédictible et quelles colonnes utiliser comme colonnes d’entrée pour créer les relations qui prédisent la colonne cible.

Les colonnes spécifiées comme Ne pas utiliser ne seront pas présentes dans la structure d’exploration de données.

Si vous ajoutez des colonnes inutiles ou dont les valeurs sont incorrectes, cela peut affecter négativement les résultats de l’analyse. Par conséquent, veillez à inclure uniquement les colonnes pertinentes. Toutefois, n’oubliez pas que les colonnes que vous n’utilisez pas dans la structure d’analyse des données ne seront pas disponibles pour la requête.
Les colonnes spécifiées comme type Include seront incluses dans la structure d’exploration de données et peuvent être utilisées ultérieurement pour l’analyse ou la prédiction dans les modèles d’exploration de données.

Si vous ne savez pas si vous devez utiliser la colonne, vous pouvez toujours inclure la colonne dans la structure d’exploration de données, puis créer un modèle d’exploration de données qui n’utilise pas cette colonne. Par exemple, vous pouvez inclure une colonne de numéros de téléphone dans vos données pour référence ultérieure, mais créer un modèle de clustering qui ignore les numéros de téléphone. Une fois les clusters créés, vous pouvez créer une requête qui retourne les numéros de téléphone des personnes appartenant à un cluster particulier.
Tous les algorithmes nécessitent une colonne clé . Les valeurs de la colonne Clé doivent être uniques. Une colonne Heure clé est requise uniquement pour les modèles de prévision ou de série chronologique. .

Spécifications

Pour créer une structure d’exploration de données, vous devez avoir une connexion à une instance d’Analysis Services. Une connexion est requise même si vous travaillez avec des structures temporaires. Pour plus d’informations sur la création ou la modification d’une connexion, consultez Se connecter aux données sources (client d’exploration de données pour Excel).

Voir aussi

Création d’un modèle d’exploration de données

Last updated on 2017-12-29

Partager via

Créer une structure d’exploration de données (compléments d’exploration de données SQL Server)

Utiliser l’Assistant pour créer une structure d’exploitation de données

Options associées

Définition de l’utilisation des colonnes dans l’Assistant Création d’une structure d’exploration de données

Spécifications

Voir aussi

Ressources supplémentaires