Partager via


Transformation de données-exemple et fractionnement

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article décrit les modules de Machine Learning Studio (classic) que vous pouvez utiliser pour partitionner ou échantillonner des données.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Les jeux de données de fractionnement et d’échantillonnage sont des tâches importantes dans Machine Learning. Par exemple, il est courant de diviser les données en jeux d’apprentissage et de test pour vous aider à évaluer un modèle sur un jeu de données exclusion. L’échantillonnage est également de plus en plus important dans l’ère de Big Data, pour s’assurer qu’il existe une distribution équitable des classes dans vos données d’apprentissage. L’échantillonnage permet également de s’assurer que vous ne traitez pas plus de données que nécessaire.

vous pouvez utiliser les modules Machine Learning Studio (classiques) pour personnaliser la façon dont vous fractionnez ou échantillonnez des jeux de données :

  • Filtrer les données d’apprentissage en fonction d’un attribut dans les données.
  • Effectuez un échantillonnage stratifié pour diviser la variable de classe de manière égale entre n nombre de groupes.
  • Divisez les données sources en un jeu de données d’apprentissage et de test à l’aide d’un rapport personnalisé.
  • Appliquez des expressions régulières aux données pour filtrer les valeurs non valides.

Choix de l’opération appropriée : fractionnement ou échantillonnage

Machine Learning Studio (classic) fournit deux modules qui encapsulent des tâches. Les modules sont similaires, mais ils ont des utilisations différentes et fournissent des fonctionnalités complémentaires. Il est probable que vous utiliserez les deux modules dans une expérience, afin d’acquérir la quantité appropriée et la combinaison de données appropriée.

Ensuite, nous comparons le module fractionner les données et le module partition et Sample en examinant les tâches pour lesquelles chaque module est couramment utilisé.

Utilisations du module fractionner les données

  • Divisez les données en deux groupes. Utilisez le module fractionner les données . Le module produit exactement deux fractionnements des données. Vous pouvez spécifier la condition sur laquelle les données sont fractionnées et la proportion des données à placer dans chaque sous-ensemble. Fractionner les données enregistre toujours le sous-ensemble de données qui ne remplit pas les conditions.
  • Allouez des valeurs d’étiquette de manière égale aux jeux de données. L’option permettant de stratification sur une colonne spécifiée est prise en charge par les deux modules. Toutefois, si vous souhaitez créer deux jeux de données et que la colonne d’étiquette vous intéresse principalement, le module fractionner les données est une solution rapide.

Exemple d’utilisation du module fractionner les données

Supposons que vous avez importé un jeu de données volumineux à partir d’un fichier CSV. Le jeu de données contient les données démographiques des clients. Vous souhaitez créer des modèles différents pour les clients dans des pays différents. vous décidez donc de fractionner les données à l’aide de la valeur de la Country-Region colonne. Voici les étapes à suivre pour effectuer cette tâche :

  1. Ajoutez le module fractionner les données , puis spécifiez une expression sur le Country-Region champ. Le reste des données est disponible sur la sortie secondaire.
  2. Ajoutez une autre instance du module fractionner les données .
  3. Réitérez les étapes 1 et 2. Spécifiez un autre pays dans l’expression pour chaque itération.

Le module fractionner les données prend en charge les expressions régulières, les données texte et les expressions relativespour les données numériques.

Le module fractionner les données fournit également des fonctionnalités sophistiquées que vous pouvez utiliser pour diviser des jeux de données spécialisés. Utilisez les fonctionnalités pour créer des modèles de recommandation et générer des prédictions.

Utilisations de la partition et de l’exemple de module

  • Échantillonnage. Utilisez toujours le module partition and Sample . Le module fournit plusieurs méthodes d’échantillonnage personnalisables, y compris plusieurs options d’échantillonnage stratifié.
  • Assignez des cas à plusieurs groupes. Utilisez les options attribuer au pli ou Sélectionner le pli dans le module partition et exemple .
  • Retourne uniquement un sous-ensemble des données. Utilisez le module partition and Sample . Le module vous donne le sous-ensemble spécifié sur la sortie principale. Les données restantes sont disponibles sur une sortie secondaire.
  • Obtient uniquement les 2 000 premières lignes d’un jeu de données. Utilisez le module partition and Sample . Sélectionnez l’option en-tête . Cela s’avère particulièrement utile lorsque vous testez une nouvelle expérience et que vous souhaitez exécuter des essais courts d’un Workflow.

Exemple d’utilisation de la partition et de l’exemple de module

Le module partition et Sample peut générer plusieurs partitions de données, et pas seulement deux. En même temps, il peut effectuer différentes opérations d’échantillonnage.

Par exemple, supposons que vous n’ayez besoin que de 10% de vos données, tout en veillant à ce que la distribution de l’attribut cible soit la même que dans les données sources. Voici les étapes à suivre pour effectuer cette tâche :

  1. Ajoutez la partition et l’exemple de module.
  2. Choisissez le mode d' échantillonnage , puis spécifiez 10%.
  3. Sélectionnez l’option d’échantillonnage stratifié, puis choisissez la colonne qui contient l’attribut cible.

Si vous n’avez pas besoin de conserver toutes les données, utilisez le module partition et Sample . Les données restantes sont toujours présentes dans l’espace de travail, mais elles n’ont pas besoin d’être traitées plus en détail dans le cadre de l’expérience.

Liste des modules

Cette catégorie inclut les modules suivants :

Voir aussi