Fractionner les données avec une expression régulière
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
cet article explique comment utiliser l’option de fractionnement des expressions régulières dans le module fractionner les données de Machine Learning Studio (classic). Cette option est utile lorsque vous devez appliquer un critère de filtre à une colonne de texte. Par exemple, vous pouvez diviser votre jeu de données selon qu’un produit particulier est mentionné ou non.
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vous pouvez utiliser un fractionnement d’expression régulière sur une colonne de texte unique. Vous définissez une expression régulière qui inclut le nom de la colonne de texte, puis définissez les conditions qui s’appliquent à la colonne, par exemple « commence par », « contient » ou « ne contient pas ».
Pour obtenir des informations générales sur le partitionnement des données pour les expériences Machine Learning, consultez fractionner des données et partitionner et fractionner.
Tâches associées
Autres options du module fractionner les données :
Fractionner des données à l’aide d’expressions relatives: appliquez une expression à des données numériques.
Jeux de données de recommandation de fractionnement: diviser les jeux de données utilisés dans les modèles de recommandation. Le jeu de données doit contenir trois colonnes : éléments, utilisateurs et évaluations
Utiliser une expression régulière pour diviser un DataSet
Ajoutez le module Fractionner les données à votre expérience et connectez-le en tant qu’entrée au jeu de données que vous souhaitez fractionner.
Pour Mode de fractionnement, sélectionnez Fractionnement Expression régulière.
Dans la zone Expression régulière, entrez une expression régulière valide. Des exemples sont fournis ici.
L’expression régulière est appliquée uniquement à la colonne spécifiée, qui doit être un type de données String.
Pour obtenir de l’aide sur la composition d’expressions régulières, consultez langage des expressions régulières-aide-mémoire.
Exécutez l’expérience, ou cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.
En fonction de l’expression régulière entrée, le jeu de données est divisé en deux ensembles de lignes : les lignes avec des valeurs correspondant à l’expression et les autres.
Exemples
Les exemples suivants montrent comment diviser un DataSet à l’aide de l’option d' expression régulière .
Mot entier unique
Cet exemple place dans le premier jeu de données toutes les lignes qui contiennent le texte Gryphon
de la colonne Text
et place d’autres lignes dans la deuxième sortie des données fractionnées:
\"Text" Gryphon
Substring
Cet exemple recherche la chaîne spécifiée dans n’importe quelle position dans la deuxième colonne du jeu de données, dénotée ici par la valeur d’index 1. La recherche de correspondance respecte la casse.
(\1) ^[a-f]
Le premier jeu de données de résultats contient toutes les lignes où la colonne d’index commence par l’un des caractères suivants : a
, b
, c
, d
, e
, f
. Toutes les autres lignes sont dirigées vers la deuxième sortie.
Correspondance de chaîne sur les adresses IP
Cet exemple divise certaines données de journalisation du serveur en deux catégories pour l’analyse : les connexions derrière le pare-feu et les connexions avec des adresses IP en dehors du pare-feu. L’expression régulière est appliquée au IP_Address
champ (type de données String ).
(\IP_Address) ^[10]
La première sortie contient toutes les adresses qui commencent par 10
.