Partager via


Méthodes de discrétisation (exploration de données)

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.

Certains algorithmes utilisés pour créer des modèles d’exploration de données dans SQL Server SQL Server SQL Server Analysis Services nécessitent des types de contenu spécifiques pour fonctionner correctement. Par exemple, l’algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée et ne peut pas prédire des valeurs continues. En outre, certaines colonnes peuvent contenir autant de valeurs que l’algorithme ne peut pas facilement identifier des modèles intéressants dans les données à partir desquels créer un modèle.

Dans ces cas, vous pouvez discrétiser les données dans les colonnes pour permettre l’utilisation des algorithmes pour produire un modèle d’exploration de données. La discrétisation est le processus de placement de valeurs dans des compartiments afin qu’il existe un nombre limité d’états possibles. Les compartiments eux-mêmes sont traités comme des valeurs ordonnées et discrètes. Vous pouvez discrétiser à la fois les colonnes numériques et de chaînes.

Il existe plusieurs méthodes que vous pouvez utiliser pour discrétiser les données. Si votre solution d’exploration de données utilise des données relationnelles, vous pouvez contrôler le nombre de compartiments à utiliser pour regrouper les données en définissant la valeur de la DiscretizationBucketCount propriété. Le nombre par défaut de compartiments est 5.

Si votre solution d’exploration de données utilise des données à partir d’un cube OLAP (Online Analytical Processing), l’algorithme d’exploration de données calcule automatiquement le nombre de compartiments à générer à l’aide de l’équation suivante, où n correspond au nombre de valeurs distinctes de données dans la colonne :

Number of Buckets = sqrt(n)

Si vous ne souhaitez pas que SQL Server Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la DiscretizationBucketCount propriété pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser les données dans SQL Server Analysis Services.

Méthode de discrétisation Descriptif
AUTOMATIQUE SQL Server Analysis Services détermine la méthode de discrétisation à utiliser.
Clusters L’algorithme divise les données en groupes en échantillonnant les données d’apprentissage, en initialisant un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l’algorithme De clustering Microsoft à l’aide de la méthode d’optimisation des attentes (EM). La méthode CLUSTERS est utile, car elle fonctionne sur n’importe quelle courbe de distribution. Toutefois, il nécessite plus de temps de traitement que les autres méthodes de discrétisation.

Cette méthode ne peut être utilisée qu’avec des colonnes numériques.
EQUAL_AREAS L’algorithme divise les données en groupes qui contiennent un nombre égal de valeurs. Cette méthode est mieux utilisée pour les courbes de distribution normales, mais ne fonctionne pas correctement si la distribution inclut un grand nombre de valeurs qui se produisent dans un groupe étroit dans les données continues. Par exemple, si une moitié des éléments ont un coût de 0, une moitié des données se produit sous un point unique dans la courbe. Dans une telle distribution, cette méthode décompose les données dans un effort pour établir une discrétisation égale dans plusieurs zones. Cela produit une représentation inexacte des données.

Remarques

  • Vous pouvez utiliser la méthode EQUAL_AREAS pour discrétiser les chaînes.

  • La méthode CLUSTERS utilise un échantillon aléatoire de 1 000 enregistrements pour discrétiser les données. Utilisez la méthode EQUAL_AREAS si vous ne souhaitez pas que l’algorithme échantillonner des données.

Voir aussi

Types de contenu (exploration de données)
Types de contenu (DMX)
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Structures d’exploration de données (Analysis Services - Exploration de données)
Types de données (exploration de données)
Colonnes de structure d'exploration de données
Distributions de colonnes (exploration de données)