Fractionner les données

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Partitionne les lignes d'un jeu de données en deux jeux distincts

Catégorie : transformation des données/exemple et fractionnement

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cette rubrique explique comment utiliser le module fractionner les données dans Machine Learning Studio (classic) pour diviser un jeu de données en deux jeux distincts.

Ce module est particulièrement utile quand vous devez séparer des données en jeux de formation et de test. Vous pouvez également personnaliser la façon dont les données sont divisées. Certaines options prennent en charge la randomisation des données, d'autres sont adaptées à un certain type de données ou type de modèle.

Comment configurer les données fractionnées

Conseil

Avant de choisir le mode de fractionnement, prenez connaissance de toutes les options afin de déterminer le type de fractionnement adapté à vos besoins. Si vous modifiez le mode de fractionnement, toutes les autres options peuvent être réinitialisées.

  1. Ajoutez le module fractionner les données à votre expérience dans Studio. Ce module est disponible sous Transformation des données, dans la catégorie Échantillonner et fractionner.

  2. Mode de fractionnement: choisissez l’un des modes suivants, en fonction du type de données que vous avez et de la façon dont vous souhaitez le diviser. Chaque mode de fractionnement s'accompagne de différentes options. Cliquez sur les rubriques suivantes pour obtenir des instructions détaillées et des exemples.

    • Fractionner les lignes : Utilisez cette option pour diviser simplement les données en deux parties. Vous pouvez spécifier le pourcentage de données de chaque fractionnement, mais par défaut, les données sont divisées à 50/50.

      Vous pouvez également rendre aléatoire la sélection des lignes de chaque groupe et utiliser l’échantillonnage stratifié. Dans l’échantillonnage stratifié, vous devez sélectionner une seule colonne de données pour laquelle vous souhaitez que les valeurs soient équitablement réparties entre les deux jeux de données de résultats.

    • Fractionnement du conseiller: choisissez toujours cette option si vous préparez des données à utiliser dans un système de recommandation. Il vous aide à diviser les jeux de données en groupes d’apprentissage et de test tout en veillant à ce que les valeurs importantes, telles que les paires utilisateur-élément ou les évaluations, soient uniformément réparties entre les groupes.

    • Fractionnement Expression régulière Choisissez cette option si vous souhaitez diviser votre jeu de données en testant une seule colonne pour une valeur.

      Par exemple, si vous analysez des sentiments, vous pouvez vérifier la présence d’un nom de produit spécifique dans un champ de texte, puis diviser le jeu de données en lignes avec et sans le nom du produit cible.

    • Fractionnement Expression relative : Utilisez cette option si vous souhaitez appliquer une condition à une colonne numérique. Le nombre peut correspondre à un champ de date/heure, une colonne contenant un âge ou des montants en dollars, voire un pourcentage. Par exemple, vous souhaiterez peut-être diviser votre jeu de données en fonction du prix des éléments, grouper des personnes par tranches d'âge ou séparer les données par date.

Configuration requise

  • Les données fractionnées peuvent créer un maximum de deux jeux de données à la fois, et ces jeux doivent être exclusifs.

    Par conséquent, si vous avez une division complexe avec plusieurs conditions et sorties, vous devrez peut-être chaîner plusieurs modules de données fractionnées .

    vous pouvez également utiliser une instruction CASE et le module Apply SQL Transformation .

  • Ce module ne supprime pas les données et ne les supprime pas du jeu de données. Il divise simplement les données comme indiqué parmi les premières et deuxième sorties du module.

  • Le fractionnement des données pour un système de recommandation implique des exigences supplémentaires. En général, le DataSet peut uniquement se composer de paires utilisateur-élément ou de triplets utilisateur-élément-évaluation. Par conséquent, le module fractionner les données ne peut pas fonctionner sur les jeux de données qui contiennent plus de trois colonnes, afin d’éviter toute confusion avec les données de type fonctionnalité. Si votre jeu de données contient trop de colonnes, vous pouvez recevoir cette erreur :

    Erreur 0022 : le nombre de colonnes sélectionnées dans le jeu de données d’entrée n’est pas égal à x

    En guise de solution de contournement, vous pouvez utiliser l' option Sélectionner des colonnes dans le jeu de données pour supprimer des colonnes, puis ajouter les colonnes ultérieurement à l’aide de l’option Ajouter des colonnes. Sinon, si votre jeu de données a de nombreuses fonctionnalités que vous souhaitez utiliser dans le modèle, divisez le jeu de données à l’aide d’une autre option et formez le modèle à l’aide de l’option former le modèle plutôt que former le recommandation Matchbox.

Exemples

Pour obtenir des exemples d’utilisation du module fractionner les données , consultez la Azure ai Gallery:

  • Validation croisée pour la classification binaire : jeu de données adulte: un taux d’échantillonnage de 20% est appliqué pour créer un jeu de données plus petit échantillonné de façon aléatoire. (Le jeu de données de recensement d'origine avait plus de 30 000 lignes ; le jeu de données d'apprentissage en a environ 6 500). Le jeu de données est nettoyé (suppression des valeurs manquantes), puis transmis à cinq modèles différents pour l'apprentissage et la validation croisée.

Notes techniques

Les exigences suivantes s’appliquent à toutes les utilisations des données fractionnées:

  • Le jeu de données d’entrée doit contenir au moins deux lignes, ou une erreur est générée.
  • Si vous utilisez l'option permettant de spécifier le nombre de lignes souhaité, le nombre spécifié doit être un entier positif inférieur au nombre total de lignes dans le jeu de données.
  • Si vous spécifiez un nombre sous forme de pourcentage ou utilisez une chaîne contenant le caractère « % », la valeur est interprétée comme un pourcentage. Toutes les valeurs de pourcentage doivent être dans la plage (0, 100), les valeurs 0 et 100 non comprises.
  • Si vous spécifiez un nombre ou un pourcentage correspondant à un nombre à virgule flottante inférieur à un et que vous n'utilisez pas le symbole de pourcentage « % », le nombre est interprété comme une valeur proportionnelle.
  • Si vous utilisez l’option de fractionnement stratifié, les jeux de données de sortie peuvent être divisés en sous-groupes, en sélectionnant une colonne de couches.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données à fractionner

Paramètres du module

Nom Type Plage Facultatif Description Default
Mode de fractionnement Mode fractionné Fractionner les lignes, réviseur de recommandation, expression régulière ou expression relative Obligatoire Fractionner les lignes Choisir la méthode de fractionnement du jeu de données

Sorties

Nom Type Description
Résultats dataset1 Table de données Jeu de données contenant les lignes sélectionnées
Résultats dataset2 Table de données Jeu de données contenant toutes les autres lignes

Voir aussi

Sample and Split
Partition et échantillon
Liste alphabétique des modules