Fractionner les données avec une expression régulière

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article explique comment utiliser l’option de fractionnement des expressions régulières dans le module fractionner les données de Machine Learning Studio (classic). Cette option est utile lorsque vous devez appliquer un critère de filtre à une colonne de texte. Par exemple, vous pouvez diviser votre jeu de données selon qu’un produit particulier est mentionné ou non.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vous pouvez utiliser un fractionnement d’expression régulière sur une colonne de texte unique. Vous définissez une expression régulière qui inclut le nom de la colonne de texte, puis définissez les conditions qui s’appliquent à la colonne, par exemple « commence par », « contient » ou « ne contient pas ».

Pour obtenir des informations générales sur le partitionnement des données pour les expériences Machine Learning, consultez fractionner des données et partitionner et fractionner.

Autres options du module fractionner les données :

Fractionner des données à l’aide d’expressions relatives: appliquez une expression à des données numériques.
Jeux de données de recommandation de fractionnement: diviser les jeux de données utilisés dans les modèles de recommandation. Le jeu de données doit contenir trois colonnes : éléments, utilisateurs et évaluations
Fractionner par pourcentage du jeu de données

Utiliser une expression régulière pour diviser un DataSet

Ajoutez le module Fractionner les données à votre expérience et connectez-le en tant qu’entrée au jeu de données que vous souhaitez fractionner.
Pour Mode de fractionnement, sélectionnez Fractionnement Expression régulière.
Dans la zone Expression régulière, entrez une expression régulière valide. Des exemples sont fournis ici.

L’expression régulière est appliquée uniquement à la colonne spécifiée, qui doit être un type de données String.

Pour obtenir de l’aide sur la composition d’expressions régulières, consultez langage des expressions régulières-aide-mémoire.
Exécutez l’expérience, ou cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.

En fonction de l’expression régulière entrée, le jeu de données est divisé en deux ensembles de lignes : les lignes avec des valeurs correspondant à l’expression et les autres.

Exemples

Les exemples suivants montrent comment diviser un DataSet à l’aide de l’option d' expression régulière .

Mot entier unique

Cet exemple place dans le premier jeu de données toutes les lignes qui contiennent le texte Gryphon de la colonne Text et place d’autres lignes dans la deuxième sortie des données fractionnées:

    \"Text" Gryphon

Substring

Cet exemple recherche la chaîne spécifiée dans n’importe quelle position dans la deuxième colonne du jeu de données, dénotée ici par la valeur d’index 1. La recherche de correspondance respecte la casse.

(\1) ^[a-f]

Le premier jeu de données de résultats contient toutes les lignes où la colonne d’index commence par l’un des caractères suivants : a, b, c, d, e, f. Toutes les autres lignes sont dirigées vers la deuxième sortie.

Correspondance de chaîne sur les adresses IP

Cet exemple divise certaines données de journalisation du serveur en deux catégories pour l’analyse : les connexions derrière le pare-feu et les connexions avec des adresses IP en dehors du pare-feu. L’expression régulière est appliquée au IP_Address champ (type de données String ).

(\IP_Address) ^[10]

La première sortie contient toutes les adresses qui commencent par 10 .

Voir aussi

Sample and Split
Partition et échantillon