Partager via


Limiter les valeurs

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Détecte les valeurs hors norme et ajuste ou remplace leurs valeurs.

Catégorie : transformation des données/mise à l’échelle et réduction

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module Clip values dans Machine Learning Studio (classic) pour identifier et éventuellement remplacer des valeurs de données qui sont au-dessus ou en dessous d’un seuil spécifié. Cela est utile lorsque vous souhaitez supprimer les valeurs hors norme ou les remplacer par une moyenne, une constante ou une autre valeur de remplacement.

Vous connectez le module à un jeu de données qui contient les nombres à limiter, choisissez les colonnes à utiliser, puis définissez un seuil ou une plage de valeurs ainsi qu’une méthode de remplacement. Le module peut générer uniquement les résultats ou générer les valeurs changées ajoutées au jeu de données d’origine.

Comment configurer le module Limiter les valeurs

Avant de commencer, identifiez les colonnes à limiter et la méthode à utiliser. Nous vous recommandons de tester d’abord la méthode de limitation sur un petit sous-ensemble de données.

Le module applique les mêmes critères et la même méthode de remplacement à toutes les colonnes que vous incluez dans la sélection. Par conséquent, veillez à exclure les colonnes que vous ne voulez pas changer.

Si vous devez appliquer des méthodes de limitation ou des critères différents à certaines colonnes, vous devez utiliser une nouvelle instance du module Limiter les valeurs pour chaque ensemble de colonnes similaires.

  1. Ajoutez le module clip values à votre expérience et connectez-le au jeu de données que vous souhaitez modifier. Ce module est disponible sous Transformation des données, dans la catégorie Mettre à l’échelle et réduire.

  2. Dans Liste des colonnes, utilisez le sélecteur de colonne pour choisir les colonnes auxquelles appliquer les valeurs limites.

  3. Pour Ensemble de seuils, choisissez l’une des options suivantes dans la liste déroulante. Ces options déterminent comment vous définissez les limites supérieure et inférieure des valeurs acceptables par rapport aux valeurs qui doivent être limitées.

    • ClipPeaks : quand vous détourez des valeurs par pic, vous spécifiez uniquement une limite supérieure. Les valeurs supérieures à cette valeur limite sont remplacées ou supprimées.

    • ClipSubpeaks: lorsque vous découpez des valeurs par des sous-pics, vous spécifiez uniquement une limite inférieure. Les valeurs inférieures à cette valeur limite sont remplacées ou supprimées.

    • ClipPeaksAndSubpeaks: lorsque vous découpez des valeurs par pics et sous-pics, vous pouvez spécifier les limites supérieure et inférieure. Les valeurs qui se trouvent en dehors de cette plage sont remplacées ou supprimées. Les valeurs qui correspondent aux valeurs limites ne sont pas changées.

  4. En fonction de votre sélection à l’étape précédente, vous pouvez définir les valeurs de seuil suivantes :

    • Seuil inférieur : affiché uniquement si vous choisissez ClipSubPeaks
    • Seuil supérieur : affiché uniquement si vous choisissez ClipPeaks
    • Seuil : affiché uniquement si vous choisissez ClipPeaksAndSubPeaks

    Pour chaque type de seuil, choisissez Constante ou Centile.

  5. Si vous sélectionnez Constante, tapez la valeur maximale ou minimale dans la zone de texte. Supposons, par exemple, que la valeur 999 a été utilisée comme valeur d’espace réservé. Vous pouvez choisir constante pour le seuil supérieur et taper 999 dans valeur constante du seuil supérieur.

  6. Si vous choisissez Centile, vous limitez les valeurs de colonne à une plage de centiles.

    Par exemple, supposons que vous voulez conserver uniquement les valeurs de la plage de centiles 10-80 et remplacer toutes les autres. Vous devez choisir centile, puis taper 10 pour la valeur de centile du seuil inférieuret le type 80 pour la valeur de centile du seuil supérieur.

    Consultez la section sur les centiles pour avoir des exemples d’utilisation des plages de centiles.

  7. Définissez une valeur de remplacement.

    Les nombres qui correspondent exactement aux limites que vous venez de spécifier sont considérés comme étant à l’intérieur de la plage de valeurs autorisée, et ne sont donc pas remplacés ou supprimés. Tous les nombres qui se trouvent en dehors de la plage spécifiée sont remplacés par la valeur de remplacement.

    • Valeur de substitution des pics : définit la valeur de substitution pour toutes les valeurs de colonne supérieures au seuil spécifié.
    • Valeur de substitution des creux : définit la valeur de substitution à utiliser pour toutes les valeurs de colonne inférieures au seuil spécifié.
    • Si vous utilisez l’option ClipPeaksAndSubpeaks, vous pouvez spécifier des valeurs de remplacement distinctes pour les valeurs limitées supérieure et inférieure.

    Les valeurs de remplacement suivantes sont prises en charge :

    • Seuil : remplace les valeurs détourées par la valeur de seuil spécifiée.

    • Moyenne : remplace les valeurs détourées par la moyenne des valeurs de colonne. La moyenne est calculée avant la limitation des valeurs.

    • Médiane : remplace les valeurs détourées par la médiane des valeurs de colonne. La médiane est calculée avant la limitation des valeurs.

    • Valeur manquante. Remplace les valeurs limitées par la valeur manquante (vide).

  8. Ajouter des colonnes d’indicateurs : sélectionnez cette option si vous voulez générer une nouvelle colonne qui indique si l’opération d’écrêtage spécifiée est appliquée aux données de cette ligne. Cette option est particulièrement utile lorsque vous testez un nouvel ensemble de valeurs de découpage et de substitution.

  9. Remplacer l’indicateur : indiquez comment les nouvelles valeurs doivent être générées. Par défaut, le module Limiter les valeurs construit une nouvelle colonne avec les valeurs de pic limitées au seuil souhaité. Les nouvelles valeurs remplacent la colonne d’origine.

    Pour conserver la colonne d’origine et ajouter une nouvelle colonne avec les valeurs limitées, désélectionnez cette option.

  10. Exécutez l’expérience.

    Cliquez avec le bouton droit sur la sortie du module Limiter les valeurs, puis sélectionnez Visualiser pour examiner les valeurs et vérifier que l’opération de limitation répond à vos attentes.

Exemples

Pour voir comment ce module est utilisé dans Machine Learning expériences, consultez la Azure ai Gallery:

  • Valeurs hors norme d' incendie de forêt: cet exemple de la couse EdX dans la science des données montre les méthodes de découpage à l’aide de l’exemple de jeu de données de forêt.

Découpage à l’aide de centiles

Pour comprendre le fonctionnement de la limitation par centile, prenons un jeu de données de 10 lignes, chacune ayant une instance des valeurs 1-10.

  • Si vous utilisez le centile comme seuil supérieur, à la valeur du 90e centile, 90 % de toutes les valeurs du jeu de données doivent être inférieures à cette valeur.

  • Si vous utilisez le centile comme seuil inférieur, à la valeur du 10e centile, 10 % de toutes les valeurs du jeu de données doivent être inférieures à cette valeur.

  1. Pour Ensemble de seuils, choisissez ClipPeaksAndSubPeaks.

  2. Pour l'option Seuil supérieur, choisissez Centile, puis, pour Nombre de centiles, tapez 90.

  3. Pour l'option Valeur de remplacement supérieure, choisissez Valeur manquante.

  4. Pour l'option Seuil inférieur, choisissez Centile, puis, pour Nombre de centiles, tapez 10.

  5. Pour l'option Valeur de remplacement inférieure, choisissez Valeur manquante.

  6. Désélectionnez l'option Indicateur de remplacement et sélectionnez l'option Ajouter une colonne d'indicateur.

Maintenant, effectuez la même expérience en utilisant 60 comme seuil supérieur de centile et 30 comme seuil inférieur de centile et utilisez la valeur de seuil comme valeur de remplacement. Le tableau suivant compare ces deux résultats :

  1. Remplacer par valeur manquante ; Seuil supérieur = 90 ; Seuil inférieur = 10

  2. Remplacer par seuil ; Centile supérieur = 60 ; Centile inférieur = 30

Données d’origine Remplacer par la valeur manquante Remplacer par le seuil
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Notes techniques

  • Vous pouvez utiliser des valeurs de clip uniquement sur des colonnes contenant des nombres ou des valeurs de date/heure.

  • Si vous incluez des colonnes qui contiennent des données par catégorie ou du texte, les colonnes seront ignorées.

  • Les valeurs manquantes sont ignorées lorsque la valeur moyenne ou médiane est calculée pour une colonne.

  • Clip Values ne prend pas en charge les données ordinales.

  • Les valeurs manquantes ne sont pas modifiées lorsqu'elles sont propagées vers le jeu de données de sortie. La colonne indiquant les valeurs ajustées contient toujours FALSE pour les valeurs manquantes.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Paramètres du module

Nom Plage Type Default Description
Ajouter des colonnes de l'indicateur TRUE/FALSE Booléen FAUX Indique s’il faut ajouter un indicateur pour le découpage d’une valeur.
Valeur constante pour le seuil inférieur n'importe laquelle Float -1 Valeur en dessous de laquelle les sous-pics seront découpés
Valeur constante pour le seuil supérieur n'importe laquelle Float 1 Valeur au-dessus de laquelle les pics seront découpés
Valeur constante du seuil inférieur n'importe laquelle Float -1 Valeur en dessous de laquelle les sous-pics sont découpés
Valeur constante du seuil supérieur >=1 Float 1 Valeur au-dessus de laquelle les pics sont découpés
Liste des colonnes ColumnSelection Liste des colonnes à découper
Valeur de remplacement inférieure Seuil

Moyenne

Médiane

Manquant
SubstituteValues Seuil Valeur utilisée pour les pics de découpage
Seuil inférieur Constante

Percentile
Mode seuil Constante Valeur en dessous de laquelle les sous-pics seront en mode de découpage
Overwrite flag (Indicateur de remplacement) TRUE/FALSE Booléen true Si la ou les colonnes de données découpées doivent remplacer les colonnes de données d’entrée
Centile pour le seuil inférieur [1 ; 99] Integer 1 Centile nombre en dessous duquel les sous-pics seront découpés
Centile pour le seuil supérieur [1 ; 99] Integer 99 Nombre de centile au-dessus duquel les pics sont découpés
Centile du seuil inférieur [1 ; 99] Integer 1 Centile nombre en dessous duquel les sous-pics sont découpés
Centile du seuil supérieur [1 ; 99] Entier 99 Nombre de centile au-dessus duquel les pics sont découpés
Ensemble de seuils ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Seuil défini ClipPeaks Spécifie le type de seuil à utiliser
Valeur de remplacement pour peaks Seuil

Moyenne

Médiane

Manquant
SubstituteValues Seuil Valeur utilisée pendant les pics de découpage
Valeur de remplacement pour subpeaks Seuil

Moyenne

Médiane

Manquant
SubstituteValues Seuil Valeur utilisée pendant les pics de découpage
Seuil Constante

Percentile
Mode seuil Constante Valeur au-dessus et au-dessous de laquelle les pics seront en mode de découpage
Valeur de remplacement supérieure Seuil

Moyenne

Médiane

Manquant
Seuil Seuil Valeur utilisée pour les pics de découpage
Seuil supérieur Constante

Percentile
Mode seuil Constante Valeur au-dessus de laquelle les pics seront en mode de découpage

Sorties

Nom Type Description
Jeu de données de résultats Table de données Jeu de données avec colonnes ajustées

Exceptions

Exception Description
Erreur 0011 Une exception se produit si l’argument du jeu de colonnes transmis ne s’applique à aucune des colonnes du jeu de données.
Erreur 0017 Une exception se produit si une ou plusieurs colonnes spécifiées présentent un type non pris en charge par le module actuel.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Scale and Reduce
Liste alphabétique des modules