Fractionner un jeu de données à l’aide d’une expression relative

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Cet article explique comment utiliser l’option Fractionnement des expressions relatives dans le module Fractionner les données de Machine Learning Studio (classique). Cette option est utile lorsque vous devez diviser un jeu de données en jeux de données d’apprentissage et de test à l’aide d’une expression numérique. Par exemple :

  • Âge supérieur à 40 ou 40 ans ou moins
  • Score de test de 60 ou supérieur à inférieur à 60
  • Valeur de classement de 1 par rapport à toutes les autres valeurs

Notes

S’applique à : Machine Learning Studio (classique) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Pour diviser vos données, vous choisissez une seule colonne numérique dans vos données et définissez une expression à utiliser pour évaluer chaque ligne. L’expression relative doit inclure le nom de la colonne, la valeur et un opérateur tel que supérieur à et inférieur à, égal et différent.

Cette option divise le jeu de données en deux groupes.

Pour obtenir des informations générales sur le partitionnement des données pour les expériences de Machine Learning, consultez Fractionner les données et partitionner et fractionner.

Autres options du module Fractionner les données :

Utiliser une expression relative pour diviser un jeu de données

  1. Ajoutez le module Fractionner les données à votre expérience dans Stuio et connectez-le en tant qu’entrée au jeu de données que vous souhaitez fractionner.

  2. Pour Mode de fractionnement, sélectionnez Fractionnement Expression relative.

  3. Dans la zone de texte Expression relationnelle , tapez une expression qui effectue une opération de comparaison numérique, sur une seule colonne :

    • La colonne contient des nombres de n’importe quel type de données numérique, y compris les types de données date/heure.

    • L’expression peut faire référence à un nom de colonne.

    • Utilisez une esperluette (&) pour l’opération AND et une barre verticale (|) pour l’opération OR.

    • Les opérateurs suivants sont pris en charge : <, >, <=, >=, ==, !=

    • Vous ne pouvez pas regrouper les opérations en utilisant ( et ).

    Pour obtenir des idées, consultez la section Exemples .

  4. Exécutez l’expérience ou cliquez avec le bouton droit sur le module et sélectionnez Exécuter sélectionné.

    L’expression divise le jeu de données en deux ensembles de lignes : les lignes avec des valeurs correspondant à la condition, et les autres.

    Si vous devez effectuer des opérations de fractionnement supplémentaires, vous pouvez ajouter une deuxième instance de *Fractionner les données, ou utiliser le module Appliquer la transformation SQL et définir une instruction CASE.

Exemples d’expressions relatve

Les exemples suivants montrent comment diviser un jeu de données à l’aide de l’option Expression relative dans le module Fractionner les données :

Utilisation de l’année civile

Un scénario courant consiste à diviser un jeu de données par années. L’expression suivante sélectionne toutes les lignes où les valeurs dans la colonne Year sont supérieures à 2010.

\"Year" > 2010

L’expression de date doit prendre en compte toutes les parties de date incluses dans la colonne de données, et le format des dates dans la colonne de données doit être cohérent.

Par exemple, dans une colonne de date au format mmddyyyy, l’expression doit ressembler à ceci :

\"Date" > 1/1/2010

Utilisation d’index de colonne

L'expression suivante montre comment utiliser l'index de colonne pour sélectionner toutes les lignes dans la première colonne du jeu de données, qui contiennent des valeurs inférieures ou égales à 30, mais différentes de 20.

(\0)<=30 & !=20

Opération composée sur les valeurs de temps utilisant plusieurs fractionnements

Supposons que vous souhaitez fractionner une table de données journal, pour grouper des requêtes dont l'exécution est trop longue. Vous pouvez utiliser l’expression relative suivante sur la colonne, Elapsed, pour obtenir les requêtes exécutées sur une minute.

\"Elapsed" >00:01:00

Pour obtenir les requêtes dont les temps de réponse sont inférieurs à une minute, mais plus de 30 secondes, ajoutez une autre instance de données fractionnées dans la sortie de droite et utilisez une expression comme suit :

\"Elapsed" <:00:01:00 & >00:00:30

Fractionner le jeu de données sur les valeurs de date

L’expression relative suivante divise le jeu de données à l’aide des valeurs de date dans la colonne dt1.

\"dt1" > 10-08-2015

Les lignes dont la date est supérieure au 10-08-2015 sont ajoutées au premier jeu de données de sortie (gauche).

Les lignes dont la date est 10-08-2015 ou antérieure sont ajoutées au deuxième jeu de données de sortie (à droite).

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Restrictions

Les restrictions suivantes s’appliquent aux expressions relatives sur un jeu de données :

  • Les expressions relatives peuvent être appliquées uniquement aux types de données numériques et aux types de données date/heure.
  • Les expressions relatives peuvent faire référence à un nom de colonne au plus.
  • Utilisez le caractère esperluette (&) pour l’opération AND et le caractère de canal (|) pour l’opération OR.
  • Les opérateurs suivants sont autorisés pour les expressions relatives : <, >, <=, >=, , ==, !=
  • Le regroupement d’opérations avec des parenthèses n’est pas pris en charge.

Voir aussi

Sample and Split
Partition et échantillon