Partager via


Totaliser les données

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Génère un rapport de statistiques descriptives de base pour les colonnes d'un jeu de données

Catégorie : fonctions statistiques

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module synthétiser des données dans Machine Learning Studio (classic) pour créer un ensemble de mesures statistiques standard qui décrivent chaque colonne dans la table d’entrée.

Ces statistiques de synthèse sont utiles lorsque vous souhaitez comprendre les caractéristiques du jeu de données complet. Par exemple, vous pouvez vous poser les questions suivantes :

  • Combien y a-t-il de valeurs manquantes dans chaque colonne ?
  • Combien y a-t-il de valeurs uniques dans une colonne de caractéristiques ?
  • Quels sont la moyenne et l’écart type de chaque colonne ?

Le module calcule les scores importants de chaque colonne et retourne une ligne de statistiques récapitulatives pour chaque variable (colonne de données) fournie comme entrée.

Conseil

Vous savez peut-être déjà que vous pouvez obtenir une liste succincte de statistiques à l’aide de l’option visualiser dans Studio (Classic). Toutefois, cette visualisation est créée en fonction d’un nombre de lignes supérieur. En revanche, le module synthétiser les données calcule ses statistiques sur toutes les lignes de données.

Comment utiliser la synthèse des données

  1. Ajoutez le module synthétiser les données à votre expérience. Vous pouvez trouver ce module dans la catégorie des fonctions statistiques de Studio (Classic).

  2. Connectez le jeu de données pour lequel vous voulez générez un rapport.

    Si vous voulez créer un rapport sur certaines colonnes seulement, utilisez le module Sélectionner des colonnes dans le jeu de données pour projeter un sous-ensemble de colonnes à utiliser.

  3. Aucun paramètre supplémentaire n’est nécessaire. Par défaut, le module analyse toutes les colonnes fournies en entrée et, en fonction du type des valeurs dans les colonnes, génère un ensemble de statistiques pertinent, comme décrit dans la section Résultats.

  4. Exécutez l’expérience, ou cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.

Résultats

Le rapport du module peut comprendre les statistiques suivantes.

  • Les statistiques exactes qui sont générées dépendent du type de données de la colonne. Pour plus d’informations, consultez la section Notes techniques .

  • L’hypothèse est faite que les instances appartiennent à un échantillon représentatif d’une population. Si vous devez calculer des statistiques sur un remplissage, utilisez les options du module Compute élémentaire Statistics , qui peut calculer des statistiques d’échantillonnage ou de remplissage.

Nom de la colonne Description
Fonctionnalité Nom de la colonne
Count Nombre total des lignes
Unique Value Count Nombre de valeurs uniques dans la colonne
Missing Value Count Nombre de valeurs uniques dans la colonne
Min Valeur la plus basse de la colonne
Max Valeur la plus haute de la colonne
Mean Moyenne de toutes les valeurs de colonne
Mean Deviation Écart moyen des valeurs de colonne
1st Quartile Valeur au premier quartile
Median Valeur de colonne médiane
3rd Quartile Valeur au troisième quartile
Mode Mode des valeurs de colonne
Plage Entier représentant le nombre de valeurs comprises entre les valeurs maximale et minimale
Sample Variance Variance de la colonne. Voir la section Note
Sample Standard Deviation Écart type de la colonne. Voir la section Note
Sample Skewness Asymétrie de la colonne. Voir la section Note
Sample Kurtosis Kurtosis de la colonne. Voir la section Note
P0.5 0,5e centile
P1 1er centile
P5 5e centile
P95 95e centile
P99.5 99,5e centile

Conseil

Sortie du rapport de statistiques sous la forme d’un jeu de données tabulaire, afin que vous puissiez utiliser les données dans les outils de création de rapports BI ou utiliser les valeurs comme entrée pour une autre opération de l’expérience.

Exemples

Pour obtenir des exemples d’utilisation du module synthétiser des données dans une expérience, consultez la Azure ai Gallery:

Notes techniques

  • Pour les colonnes numériques et booléennes, vous pouvez générer la moyenne, la médiane, le mode et l’écart type.

  • Pour les colonnes non numériques, seules les valeurs de Count, d'Unique value count et de Missing value count sont calculées. Pour les autres statistiques, une valeur Null est renvoyée.

  • Les colonnes contenant des valeurs booléennes sont traitées à l'aide des règles suivantes :

    • Lors du calcul de Min, un opérateur logique AND est appliqué.

    • Lors du calcul de Max, un opérateur logique or est appliqué

    • Lors du calcul de Range, le module vérifie d'abord si le nombre de valeurs uniques dans la colonne est égal à 2.

    • Lors du calcul des statistiques nécessitant des calculs à virgule flottante, les valeurs True sont traitées comme 1,0, et les valeurs False comme 0,0.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Output

Nom Type Description
Jeu de données de résultats Table de données Profil du jeu de données d'entrée contenant des statistiques descriptives

Exceptions

Exception Description
Erreur 0003 Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0020 Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit.
Erreur 0021 Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Fonctions statistiques
Calculer des statistiques élémentaires