Calculer des statistiques élémentaires

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Calcule des statistiques récapitulatives spécifiées pour des colonnes de jeu de données sélectionnées

Catégorie : fonctions statistiques

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module compute élémentaire statistics dans Machine Learning Studio (classic) pour générer un rapport de synthèse pour votre jeu de données qui répertorie des statistiques clés telles que la moyenne, l’écart type et la plage de valeurs de chacune des colonnes sélectionnées.

Ce rapport est utile pour l'analyse de la tendance centrale, de la dispersion et de la forme des données.

Comment configurer les statistiques élémentaires Compute

  1. Ajoutez le module Compute élémentaire Statistics à votre expérience. vous pouvez trouver ce module dans la catégorie des fonctions statistiques de Machine Learning Studio (classic).

  2. Connecter un jeu de données qui contient les colonnes que vous souhaitez analyser.

  3. Cliquez sur la liste déroulante méthode , puis choisissez le type de valeur que vous souhaitez calculer pour chaque colonne.

    Consultez la section des statistiques prises en charge pour obtenir la liste complète des statistiques disponibles et leur signification.

  4. Par défaut, la valeur que vous avez sélectionnée dans la liste déroulante méthode est calculée pour toutes les colonnes du jeu de données qui ont un type de données numérique. Si une colonne contient des valeurs qui empêchent le calcul de la valeur, une erreur est générée et le rapport n’est pas créé.

    Pour éviter cette erreur, utilisez le sélecteur de colonne pour choisir les colonnes numériques pour lesquelles vous voulez un rapport. Toutes les colonnes que vous choisissez doivent être numériques.

  5. Exécutez l’expérience.

Résultats

Le rapport généré comprend le nom de chaque colonne et les statistiques qui ont été calculées. Par exemple, le tableau suivant présente les statistiques générées pour la colonne mpg .

DeviationSquared (MPG) Max (MPG) Min (MPG)
9674,312 25,21951 13

Conseil

Chaque fois que vous exécutez des Statistiques élémentaires Compute, il ne peut générer qu’une seule statistique de résumé pour chacune des colonnes sélectionnées. Toutefois, vous pouvez utiliser les modules Ajouter des colonnes ou Ajouter des lignes pour fusionner les résultats dans une table unique, comme dans l’exemple précédent.

Statistiques prises en charge

Ce module prend en charge les statistiques descriptives standard suivantes.

Écarts au carré

Calcule l' écart au carré des valeurs de colonne. Également appelée somme des carrés.

L’écart au carré est une mesure de la dispersion des valeurs éloignées de la moyenne.

Moyenne géométrique

Calcule la moyenne géométrique des valeurs de colonne.

La moyenne géométrique peut être utilisée pour mesurer la tendance centrale d’un ensemble de nombres. Par rapport à la moyenne arithmétique, elle est moins affectée par un petit nombre de valeurs extrêmes. Il peut également être utilisé pour comparer des mesures sur différentes échelles, car il normalise efficacement les échelles des nombres comparés. La méthode Geometry est parfois utilisée pour estimer les taux de croissance annuels composés.

la fonction équivalente dans Excel est la géomoyenne.

Moyenne harmonique

Calcule la moyenne harmonique des valeurs de colonne.

Pour calculer la moyenne harmonique, toutes les valeurs sont converties en leurs réciproques, puis la moyenne est prise de ces valeurs. La moyenne harmonique correspond à la réciproque de cette moyenne. Si les valeurs de colonne sont positives, les nombres plus grands sont inférieurs aux plus petits.

La moyenne harmonique est toujours inférieure à la moyenne géométrique, qui est toujours inférieure à la moyenne arithmétique. La moyenne harmonique est utile pour la moyenne des variables qui représentent des taux, tels que la vitesse (distance dans le temps) ou les ventes par trimestre.

la fonction équivalente dans Excel est HARMEAN.

Distance interquartile

Calcule la différence interquartile pour le premier et le dernier quartiles des valeurs de colonne. Également appelée plage de quartile. Lorsque le quartile se trouve entre deux nombres, la valeur du quartile correspond à la moyenne des deux valeurs de chaque côté de la coupe.

La valeur du quartile divise la colonne de valeurs en quatre groupes avec un nombre égal de valeurs. Par conséquent, un quart des valeurs est inférieur ou égal au 25e centile. Trois quarts des valeurs sont inférieurs ou égaux au 75e centile. En passant en revue la plage du quartile, vous pouvez avoir une idée de la répartition des valeurs de données.

Moment central K-th

Calcule le moment K-th Centre pour les valeurs de colonne.

Lors du calcul de l’heure de K-th central, vous devez également spécifier l' ordre, c’est-à-dire la valeur de k. La valeur de k peut être comprise entre 0 et toute valeur entière autorisée, même si les valeurs d’ordre supérieur ne sont généralement pas significatives.

En général, dans les statistiques descriptives, un moment est une mesure qui décrit la forme d’un ensemble de points. Les moments centraux représentent les moments de la moyenne, qui sont généralement utilisés car ils fournissent de meilleures informations sur la forme de la distribution. Un ordre de 2 représente généralement la variance ; un ordre de 4 est utilisé pour le kurtosis. Le premier moment de la commande est la moyenne. Ainsi, la collection de tous les moments décrit de façon unique la distribution des valeurs dans la colonne.

Max

Recherche la valeur maximale dans la colonne.

Moyenne

Calcule la moyenne arithmétique des valeurs de colonne.

la fonction équivalente dans Excel est average.

Écart moyen

Calcule l' écart absolu moyen pour les valeurs de colonne.

Autrement dit, la moyenne est calculée pour la colonne et l’écart est calculé pour chaque valeur de la colonne. La moyenne des valeurs absolues des valeurs d’écart individuelles est l’écart moyen.

Cette statistique vous indique comment s’étaler à partir de la moyenne de votre colonne de nombres.

Médiane

Retourne la valeur médiane des valeurs de colonne.

La valeur médiane est le nombre au milieu d’une colonne de nombres. S’il y a un nombre pair de nombres dans la colonne, la valeur médiane est la moyenne des deux nombres au milieu.

La valeur médiane, avec la moyenne et le mode, est l’une des trois statistiques qui mesure la tendance centrale. Si les valeurs sont symétriques autour de la moyenne, les trois nombres sont à peu près identiques. Toutefois, la valeur médiane est plus robuste que la moyenne.

Écart médian

Calcule l' écart médian de la colonne.

Autrement dit, la valeur médiane est calculée pour la colonne et l’écart est calculé pour chaque valeur de la colonne. La valeur médiane des valeurs absolues des valeurs d’écart individuelles est prise.

L’écart absolu médian est également appelé MAD et est utilisé pour décrire la variabilité d’un échantillon de nombres. MAD vous indique comment se répandre à partir de la moyenne de votre colonne de nombres.

Min

Retourne la valeur minimale des valeurs de colonne.

Mode

Recherche tous les modes de la colonne.

Le mode est la valeur qui apparaît le plus dans la colonne. Si plusieurs valeurs s’affichent le même nombre de fois, la colonne peut avoir plusieurs modes.

En tant que mesure de la tendance centrale, le mode est plus robuste pour les valeurs hors norme que la moyenne et peut également être utilisé avec des données nominales.

Écart type de population

Calcule l' écart type de remplissage pour les valeurs de colonne.

Cette statistique part du principe que les valeurs de colonne représentent l’ensemble du remplissage. Si vos données ne sont qu’un échantillon de la population, vous devez calculer l’écart type à l’aide d’un échantillon d’écart type. Toutefois, dans les jeux de données volumineux, les deux statistiques retournent approximativement des valeurs égales.

L’écart type est calculé en tant que racine carrée de la variance de la colonne. Cette statistique capture la quantité de variabilité dans la colonne.

Variance de population

Calcule la variance de remplissage pour les valeurs de colonne.

La variance mesure la répartition d’un ensemble de nombres. Si la variance est égale à zéro, tous les nombres sont identiques.

Cette statistique part du principe que la colonne de valeurs représente l’ensemble du remplissage. Si vos données contiennent uniquement un échantillon des valeurs, vous devez calculer la variance à l’aide de l' exemple de variance.

la fonction Excel équivalente est VAR.P .

Produit

Calcule le produit des éléments de la colonne.

Pour récupérer le produit, vous avez plusieurs nombres dans la colonne. Le résultat n’est pas lui-même utile comme une statistique descriptive, mais la fonction est utile pour divers autres calculs.

Plage

Calcule la plage des valeurs de colonne. La plage est définie en tant que valeur maximale moins la valeur minimale

Exemple d'aplatissement

Calcule l' échantillon de kurtosis pour les valeurs de colonne.

Le kurtosis décrit la forme de la distribution des valeurs, c’est-à-dire la manière dont la répartition des valeurs est intense ou plate, par rapport à la distribution normale.

  • La distribution normale a un kurtosis égal à 0.

  • Des valeurs de kurtosis élevé indiquent que la masse de probabilité est concentrée sur un pic ou à la fin de la distribution.

  • Les valeurs de kurtosis négatives indiquent une distribution relativement plate.

Exemple d'asymétrie

Calcule l' asymétrie de l’échantillon pour les valeurs de colonne.

Skew indique si la majeure partie des valeurs est au centre, décalée vers la gauche ou décalée vers la droite. Deux distributions peuvent avoir la même moyenne et l’écart type, mais leur mise en forme est très différente. Vous pouvez utiliser l’asymétrie et le kurtosis pour caractériser la forme.

  • Les valeurs d’inclinaison négative signifient que la distribution est inclinée vers la gauche.

  • 0 indique la distribution normale.

  • Les valeurs d’asymétrie positives signifient que la distribution est inclinée vers la droite.

Exemple d'écart type

Calcule l' écart type de l’échantillon pour les valeurs de colonne.

L’écart type de l’échantillon mesure la répartition des valeurs de la colonne par rapport à la moyenne. Il représente la distance moyenne entre les valeurs des données dans le jeu et la moyenne.

Cette statistique part du principe que les valeurs de colonne représentent un échantillon du remplissage. Si vos données représentent l’ensemble du remplissage, vous devez calculer l’écart type à l’aide de l' écart-typede la population.

la fonction Excel équivalente est ST. DEV. S.

Exemple de variance

Calcule la variance de l’échantillon pour les valeurs de colonne.

Cette méthode suppose que les valeurs de colonne représentent un échantillon du remplissage. Si la colonne contient l’intégralité du remplissage, vous devez utiliser la variance standard de remplissage.

la fonction Excel équivalente est VAR. S.

Sum

Calcule la somme des valeurs de colonne.

Exemples

Les expériences suivantes dans le Azure ai Gallery montrent comment vous pouvez créer un rapport de synthèse qui contient des statistiques descriptives pour un jeu de données entier. Le rapport de synthèse contient uniquement des statistiques générales ; Toutefois, vous pouvez l’enregistrer en tant que jeu de données, puis ajouter des statistiques détaillées, à l’aide des options disponibles dans Compute élémentaire Statistics.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Conseil

Les conditions suivantes doivent être satisfaites lors de l’utilisation du module Compute élémentaire Statistics :

  • Le nombre de points de données (lignes) doit être suffisant pour calculer la statistique sélectionnée. Par exemple, pour calculer l' écart type de l’échantillon, vous devez disposer d’au moins deux points de données ; dans le cas contraire, le résultat est NaN.
  • Les colonnes d'entrée doivent être numériques ou booléennes.

Par défaut, toutes les colonnes numériques sont sélectionnées. Toutefois, si des colonnes numériques sont marquées comme catégoriques, vous pouvez recevoir l’erreur suivante : « erreur 0056 : la colonne portant le nom > de colonne de nom < ne se trouve pas dans une catégorie autorisée ». Pour corriger l’erreur, ajoutez une instance du module modifier les métadonnées , sélectionnez la colonne présentant le problème et utilisez l’option Supprimer les catégories.

Informations d’implémentation

Les colonnes booléennes sont traitées comme suit :

  • MIN est calculé comme l'opérateur logique AND.

  • MAX est calculé comme l'opérateur logique OR.

  • RANGE vérifie si le nombre de valeurs uniques dans la colonne est égal à 2.

  • Les valeurs manquantes sont ignorées.

  • Pour les statistiques nécessitant des calculs en virgule flottante, True = 1,0, False = 0,0

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Paramètres du module

Nom Plage Type Default Description
Méthode Liste Méthode de statistique élémentaire Sélectionne une méthode statistique à utiliser dans les calculs. Consultez Comment utiliser la section pour obtenir la liste des valeurs.
Jeu de colonnes n'importe laquelle ColumnSelection NumericAll Sélectionne les colonnes pour lesquelles calculer les statistiques
JSON >=1 Integer 3 Spécifie une valeur pour l’ordre de moment central (utilisé pour le moment de la k centrale uniquement)

Output

Nom Type Description
Jeu de données de résultats Table de données Jeu de données de sortie

Exceptions

Exception Description
Erreur 0017 Une exception se produit si une ou plusieurs colonnes spécifiées sont d'un type non pris en charge par le module actuel.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Fonctions statistiques
élémentaires
Résumer les données
Liste alphabétique des modules