Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lorsque vous effectuez l’exploration de données à l’aide des outils d’analyse de table pour Excel, vous n’avez pas besoin de configurer l’algorithme ou les paramètres d’exploration de données ; chaque outil analyse vos données et sélectionne automatiquement les paramètres optimaux. Toutefois, si vous souhaitez modifier le modèle ou créer un modèle d’exploration de données à partir de zéro, le client d’exploration de données pour Excel offre plusieurs options de personnalisation.
Créez manuellement un modèle d’exploration de données, en cliquant sur Avancé , puis sur Ajouter un modèle à la structure.
Utilisez l’un des Assistants de modélisation dans le client d’exploration de données, puis cliquez sur Paramètres pour contrôler le comportement des algorithmes d’exploration de données Microsoft.
Cliquez sur Requête pour ouvrir l'Assistant de Modèle de requête, puis sur Avancé pour ouvrir l'Éditeur avancé de requêtes d'exploration de données. Dans cet éditeur, vous pouvez créer des modèles à l’aide de modèles DMX.
Vous pouvez également modifier le comportement des modèles d’exploration de données déjà créés ou filtrer les résultats en définissant des paramètres dans la visionneuse de modèles d’exploration de données.
Liste des paramètres d’algorithme
Tous les algorithmes Microsoft peuvent être personnalisés en définissant des paramètres. Étant donné que les meilleurs paramètres dépendent de la composition de vos données, une explication complète des effets de la modification des paramètres dépasse la portée de cette rubrique.
Le tableau suivant répertorie les paramètres, décrit leurs fonctionnalités et fournit des liens vers des informations techniques supplémentaires.
| Nom du paramètre | Utilisé dans | Descriptif |
|---|---|---|
| AUTO_DÉTECTION_PÉRIODICITÉ | Algorithme Microsoft Time Series | Spécifie une valeur numérique comprise entre 0 et 1 utilisée pour détecter la périodicité. La définition de cette valeur plus proche de 1 favorise la découverte de nombreux modèles quasi-périodiques et la génération automatique d’indicateurs de périodicité. La gestion de nombreux indicateurs de périodicité entraînera probablement des temps d’entraînement de modèle beaucoup plus longs et des modèles plus précis. Si la valeur est plus proche de 0, la périodicité est détectée uniquement pour les données fortement périodiques. La valeur par défaut est 0.6. |
| NOMBRE_DE_CLUSTER | Algorithme de clustering Microsoft Algorithme de regroupement de séquences Microsoft |
Spécifie le nombre approximatif de clusters à générer par l’algorithme. Si le nombre approximatif de clusters ne peut pas être généré à partir des données, l’algorithme génère autant de clusters que possible. La définition de la CLUSTER_COUNT sur 0 entraîne l’utilisation de l’heuristique pour déterminer le nombre de clusters à générer. La valeur par défaut est 10. |
| CLUSTER_SEED | Algorithme de clustering Microsoft | Spécifie le numéro de départ utilisé pour générer aléatoirement des clusters pour l’étape initiale de la génération de modèles. La valeur par défaut est 0. |
| MÉTHODE_DE_CLUSTERING | Algorithme de clustering Microsoft | Spécifie la méthode de clustering à utiliser pour l’algorithme. Les méthodes de clustering suivantes sont disponibles : EM scalable (1), EM non scalable (2), K-Moyennes scalables (3) et K-Moyennes non scalables (4). La valeur par défaut est 1. |
| PÉNALITÉ_COMPLEXITÉ | Algorithme d’arbres de décision Microsoft Algorithme Microsoft Time Series |
Contrôle la croissance de l’arbre de décision. Une valeur faible augmente le nombre de fractionnements, et une valeur élevée diminue le nombre de fractionnements. La valeur par défaut est basée sur le nombre d’attributs d’un modèle particulier, comme décrit dans la liste suivante : Pour 1 à 9 attributs, la valeur par défaut est 0,5. Pour les attributs 10 à 99, la valeur par défaut est 0,9. Pour 100 attributs ou plus, la valeur par défaut est 0,99. Remarque : Dans les modèles de série chronologique, ce paramètre s’applique uniquement aux modèles générés à l’aide de l’algorithme ARTxp ou aux modèles mixtes. |
| FORCED_REGRESSOR | Algorithme d’arbres de décision Microsoft Algorithme de régression linéaire Microsoft |
Force l’algorithme à utiliser les colonnes indiquées comme régresseurs, quelle que soit l’importance des colonnes calculées par l’algorithme. Remarque : ce paramètre est utilisé uniquement pour les arbres de décision qui prédisent un attribut continu. Par définition, un modèle de régression linéaire est un cas particulier d’arbres de décision qui prédit les attributs continus. Toutefois, tout modèle d’arbre de décision peut contenir un nœud qui représente une formule de régression linéaire. |
| FORECAST_METHOD | Algorithme Microsoft Time Series | Indique si les prédictions doivent être effectuées à l’aide de l’algorithme ARTxp, de l’algorithme ARIMA ou d’une combinaison des deux. La valeur par défaut est MIXED. |
| ratio des nœuds cachés | Algorithme de réseau neuronal Microsoft | Spécifie le rapport entre les neurones masqués et les neurones d’entrée et de sortie. La formule suivante détermine le nombre initial de neurones dans la couche masquée : HIDDEN_NODE_RATIO * SQRT(Nombre total de neurones d’entrée * Nombre total de neurones de sortie) La valeur par défaut est 4.0. |
| NOMBRE_MODÈLE_HISTORIQUE | Algorithme Microsoft Time Series | Spécifie le nombre de modèles historiques qui seront générés. La valeur par défaut est 1. |
| ÉCART_MODÈLE_HISTORIQUE | Algorithme Microsoft Time Series | Spécifie le décalage temporel entre deux modèles historiques consécutifs. Par exemple, la définition de cette valeur sur g entraîne la génération de modèles historiques pour les données tronquées par tranches de temps à intervalles de g, 2*g, 3*g, et ainsi de suite. La valeur par défaut est 10. |
| Pourcentage de rétention | Algorithme de régression logistique Microsoft Algorithme de réseau neuronal Microsoft |
Spécifie le pourcentage de cas dans les données d’apprentissage utilisées pour calculer l’erreur de blocage, qui est utilisée dans le cadre des critères d’arrêt lors de l’apprentissage du modèle d’exploration de données. La valeur par défaut est 30. Remarque : ce paramètre est différent de la valeur de pourcentage de réserve qui s’applique à une structure minière. |
| HOLDOUT_SEED | Algorithme de régression logistique Microsoft Algorithme de réseau neuronal Microsoft |
Spécifie un nombre utilisé pour amorçage du générateur pseudo-aléatoire lorsque l’algorithme détermine de façon aléatoire les données de blocage. Si ce paramètre est défini sur 0, l’algorithme génère la valeur initiale en fonction du nom du modèle d’exploration de données, pour garantir que le contenu du modèle reste le même pendant le retraitement. La valeur par défaut est 0. Remarque : ce paramètre est différent de la valeur de départ d’exclusion qui s’applique à une structure d’exploration de données. |
| Sensibilité à l'instabilité | Algorithme Microsoft Time Series | Contrôle le point auquel la variance de prédiction dépasse un certain seuil et l’algorithme ARTxp supprime les prédictions. La valeur par défaut est 1. Remarque : Ce paramètre s’applique uniquement aux modèles ou modèles mixtes qui utilisent l’algorithme ARTxp. |
| ATTRIBUTS_MAXIMUM_ENTRÉE | Algorithme de clustering Microsoft Algorithme d’arbres de décision Microsoft Algorithme de régression linéaire Microsoft Algorithme Microsoft Naïve Bayes Algorithme de réseau neuronal Microsoft Algorithme de régression logistique Microsoft |
Définit le nombre d’attributs d’entrée que l’algorithme peut gérer avant d’appeler la sélection de fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255. |
| MAXIMUM_ITEMSET_COUNT | Algorithme d’association Microsoft | Spécifie le nombre maximal d’ensembles d’éléments à produire. Si aucun nombre n’est spécifié, l’algorithme génère tous les ensembles d’éléments possibles. La valeur par défaut est 200000. |
| MAXIMUM_ITEMSET_SIZE | Algorithme d’association Microsoft | Spécifie le nombre maximal d’éléments autorisés dans un ensemble d’éléments. La définition de cette valeur sur 0 spécifie qu’il n’existe aucune limite à la taille du jeu d’éléments. La valeur par défaut est 3. |
| ATTRIBUTS_DE_SORTIE_MAXIMUM | Algorithme d’arbres de décision Microsoft Algorithme de régression linéaire Microsoft Algorithme de régression logistique Microsoft Algorithme Microsoft Naïve Bayes Algorithme de réseau neuronal Microsoft |
Définit le nombre d’attributs de sortie que l’algorithme peut gérer avant d’appeler la sélection des fonctionnalités. Définissez cette valeur sur 0 pour désactiver la sélection des fonctionnalités. La valeur par défaut est 255. |
| ÉTATS_DE_SÉQUENCE_MAXIMUM | Algorithme de regroupement de séquences Microsoft | Spécifie le nombre maximal d’états qu’une séquence peut avoir. La définition de cette valeur sur un nombre supérieur à 100 peut entraîner la création d’un modèle qui ne fournit pas d’informations significatives. La valeur par défaut est 64. |
| VALEUR_MAXIMALE_DE_SÉRIE | Algorithme Microsoft Time Series | Spécifie la valeur maximale à utiliser pour les prédictions. Ce paramètre est utilisé, avec MINIMUM_SERIES_VALUE, pour limiter les prédictions à une plage attendue. Par exemple, vous pouvez spécifier que la quantité de ventes prédite pour n’importe quel jour ne doit jamais dépasser le nombre de produits en stock. |
| ETATS_MAXIMAUX | Algorithme de clustering Microsoft Algorithme de réseau neuronal Microsoft Algorithme de regroupement de séquences Microsoft |
Spécifie le nombre maximal d’états d’attribut pris en charge par l’algorithme. Si le nombre d’états dont un attribut est supérieur au nombre maximal d’états, l’algorithme utilise les états les plus populaires de l’attribut et ignore les états restants. La valeur par défaut est 100. |
| SOUTIEN_MAXIMAL | Algorithme d’association Microsoft | Spécifie le nombre maximal de cas où un jeu d’éléments peut avoir un support. Si cette valeur est inférieure à 1, la valeur représente un pourcentage du nombre total de cas. Si cette valeur est supérieure à 1, la valeur représente le nombre absolu de cas qui peuvent contenir l’ensemble d’éléments. La valeur par défaut est 1. |
| IMPORTANCE_MINIMALE | Algorithme d’association Microsoft | Spécifie le seuil d’importance pour les règles d’association. Les règles dont l’importance est inférieure à cette valeur sont filtrées. |
| TAILLE_MINIMALE_D'ENSEMBLE_D'ÉLÉMENTS | Algorithme d’association Microsoft | Spécifie le nombre minimal d’éléments autorisés dans un ensemble d’éléments. La valeur par défaut est 1. |
| MINIMUM_DEPENDENCY_PROBABILITY | Algorithme Microsoft Naïve Bayes | Spécifie la probabilité de dépendance minimale entre les attributs d’entrée et de sortie. Cette valeur est utilisée pour limiter la taille du contenu généré par l’algorithme. Cette propriété peut être définie de 0 à 1. Les valeurs plus grandes réduisent le nombre d’attributs dans le contenu du modèle. La valeur par défaut est 0.5. |
| PROBABILITÉ_MINIMALE | Algorithme d’association Microsoft | Spécifie la probabilité minimale qu’une règle soit vraie. Par exemple, la définition de cette valeur sur 0,5 spécifie qu’aucune règle dont la probabilité est inférieure à cinquante pour cent est générée. La valeur par défaut est 0.4. |
| MINIMUM_SERIES_VALUE | Algorithme Microsoft Time Series | Spécifie la contrainte inférieure pour toute prédiction de série chronologique. Les valeurs prédites ne seront jamais plus petites que cette contrainte. |
| SOUTIEN_MINIMAL | Algorithme d’association Microsoft | Spécifie le nombre minimal de cas qui doivent contenir l’ensemble d’éléments avant que l’algorithme génère une règle. La définition de cette valeur sur moins de 1 spécifie le nombre minimal de cas sous la forme d’un pourcentage du nombre total de cas. La définition de cette valeur sur un nombre entier supérieur à 1 spécifie le nombre minimal de cas comme nombre absolu de cas qui doivent contenir l’ensemble d’éléments. L’algorithme peut augmenter la valeur de ce paramètre, si la mémoire est limitée. La valeur par défaut est 0.03. |
| SOUTIEN_MINIMAL | Algorithme de clustering Microsoft | Spécifie le nombre minimal de cas dans chaque cluster. La valeur par défaut est 1. |
| SOUTIEN_MINIMAL | Algorithme d’arbres de décision Microsoft | Détermine le nombre minimal de feuilles requis pour générer une division dans l'arbre de décision. La valeur par défaut est 10. |
| SOUTIEN_MINIMAL | Algorithme de regroupement de séquences Microsoft | Spécifie le nombre minimal de cas dans chaque cluster. La valeur par défaut est 10. |
| SOUTIEN_MINIMAL | Algorithme Microsoft Time Series | Spécifie le nombre minimal de tranches de temps requises pour générer un fractionnement dans chaque arborescence de série chronologique. La valeur par défaut est 10. |
| Substitution de valeur manquante | Algorithme Microsoft Time Series | Spécifie la méthode utilisée pour combler les lacunes dans les données historiques. Par défaut, les lacunes irrégulières ou les bords irréguliers dans les données ne sont pas autorisés. Les méthodes suivantes peuvent être utilisées pour combler des lacunes ou des arêtes irrégulières : utilisez la valeur précédente, utilisez la valeur moyenne ou utilisez une constante numérique spécifique. |
| MODÉLISATION_CARDINALITÉ | Algorithme de clustering Microsoft | Spécifie le nombre d’exemples de modèles construits pendant le processus de clustering. La valeur par défaut est 10. |
| INDICE_DE_PERIODICITÉ | Algorithme Microsoft Time Series | Fournit un indicateur à l’algorithme quant à la périodicité des données. Par exemple, si les ventes varient d’une année à l’autre et que l’unité de mesure de la série est de mois, la périodicité est de 12. Ce paramètre prend le format {n [, n]}, où n est un nombre positif quelconque. Le n entre crochets [] est facultatif et peut être répété aussi fréquemment que nécessaire. La valeur par défaut est {1}. |
| LISSAGE_PRÉVISION | Algorithme Microsoft Time Series | Contrôle le mélange d’algorithmes de série chronologique ARTXP et ARIMA. La valeur spécifiée est valide uniquement lorsque le paramètre FORECAST_METHOD est défini sur MIXED. Les valeurs doivent être comprises entre 0 et 1. Si la valeur est 0, le modèle utilise uniquement ARTXP. Si la valeur est 1, le modèle utilise uniquement ARIMA. Une valeur plus proche de 0 est plus fortement pondérée à ARTXP. Une valeur plus proche de 1 est plus fortement pondérée à ARIMA. |
| TAILLE_ÉCHANTILLON | Algorithme de clustering Microsoft | Spécifie le nombre de cas que l’algorithme utilise sur chaque passe si le paramètre CLUSTERING_METHOD est défini sur l’une des méthodes de clustering évolutives. La définition du paramètre SAMPLE_SIZE sur 0 entraîne le cluster de l’ensemble du jeu de données dans une seule passe. Cela peut entraîner des problèmes de mémoire et de performances. La valeur par défaut est 50000. |
| TAILLE_ÉCHANTILLON | Algorithme de régression logistique Microsoft Algorithme de réseau neuronal Microsoft |
Spécifie le nombre de cas à utiliser pour entraîner le modèle. Le fournisseur d’algorithmes utilise ce nombre ou le pourcentage de cas totaux qui ne sont pas inclus dans le pourcentage d’attente spécifié par le paramètre HOLDOUT_PERCENTAGE, selon la valeur la plus petite. En d’autres termes, si HOLDOUT_PERCENTAGE est défini sur 30, l’algorithme utilise soit la valeur de ce paramètre, soit une valeur égale à 70 % du nombre total de cas, selon la valeur la plus petite. La valeur par défaut est 1 0000. |
| SCORE_METHOD | Algorithme d’arbres de décision Microsoft | Détermine la méthode utilisée pour calculer le score de fractionnement. Les options suivantes sont disponibles : (1) Entropie, (2) Bayésien avec K2 Prior, ou (3) Bayésian Dirichlet Equivalent (BDE) Prior. La valeur par défaut est 3. |
| Méthode_de_découpage | Algorithme d’arbres de décision Microsoft | Détermine la méthode utilisée pour fractionner le nœud. Les options suivantes sont disponibles : Binaire (1), Complet (2) ou Les deux options (3). La valeur par défaut est 3. |
| Tolerance d'arrêt | Informations techniques de référence sur l’algorithme de clustering Microsoft | Spécifie la valeur utilisée pour déterminer quand la convergence est atteinte et que l’algorithme est terminé de générer le modèle. La convergence est atteinte lorsque la modification globale des probabilités de cluster est inférieure au ratio du paramètre STOPPING_TOLERANCE divisé par la taille du modèle. La valeur par défaut est 10. |
Commentaires
Pour plus d’informations sur les algorithmes, consultez la documentation en ligne de SQL Server.
Voir aussi
Algorithmes d’exploration de données (compléments d’exploration de données SQL Server)