Partager via


Group Categorical Values

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Regroupe les données de plusieurs catégories dans une nouvelle catégorie.

Catégorie : transformation/manipulation des données

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module Group catégorique values dans Machine Learning Studio (classic) pour créer une table de recherche sur place.

L’utilisation courante du regroupement de valeurs catégoriques consiste à fusionner plusieurs valeurs de chaîne dans un nouveau niveau unique. Par exemple, vous pouvez affecter des codes postaux individuels dans une région à un seul code régional, ou regrouper plusieurs produits sous une seule catégorie.

Pour utiliser ce module, vous tapez les valeurs de recherche que vous souhaitez utiliser et vous mappez les valeurs existantes aux valeurs de remplacement. Vous pouvez créer des regroupements uniquement pour les colonnes catégoriques, pas pour les colonnes de type numérique ou de colonnes désignées comme étiquettes ou caractéristiques.

Toute valeur de colonne qui n’est pas explicitement mappée à un nouveau niveau est assignée à un niveau par défaut. Par exemple, si vous n’avez pas mappé tous les codes postaux, ceux-ci sont regroupés dans un niveau pour les valeurs non mappées, que vous pouvez nommer Unknown.

Notes

Vous pouvez créer un maximum de 20 nouveaux niveaux, y compris le niveau par défaut. Si vous avez besoin de davantage de valeurs ou si vous devez définir des mappages de manière dynamique, nous vous recommandons d’utiliser un script R personnalisé dans le module exécuter le script r . sinon, utilisez les instructions SQL dans le module appliquer SQL Transformation .

Comment utiliser les valeurs de catégorie de groupe

Nous vous recommandons de préparer au préalable la liste des valeurs existantes et les nouvelles catégories. Pour chaque catégorie, vous devez préparer un nouveau nom de catégorie et une liste de valeurs séparées par des virgules à inclure dans la catégorie.

  1. Ajoutez le module groupe de valeurs catégoriques à votre expérience. Vous pouvez trouver le module sous transformation des données, manipulation.

  2. Connecter un jeu de données dont vous souhaitez transformer les valeurs.

  3. Dans le volet Propriétés du groupe valeurs catégoriques, utilisez le sélecteur de colonne pour choisir la colonne qui contient les niveaux que vous souhaitez réduire.

    • Nous vous recommandons de cliquer sur commencer par et aucune colonne à démarrer, puis d’ajouter des colonnes par nom. Dans le cas contraire, un trop grand nombre de colonnes peuvent être ajoutées en tant que candidats, ce qui aboutit à une erreur.

    • La colonne doit être une colonne catégorielle. Si ce n’est pas le cas, ajoutez modifier les métadonnées en amont, puis modifiez le type de colonne.

    • Veillez à supprimer de l’entrée les colonnes dans lesquelles le remplacement de chaîne ne doit pas être appliqué.

  4. Pour le mode de sortie, indiquez si vous souhaitez générer uniquement les nouveaux niveaux, ou ajouter les modifications pour afficher la colonne d’origine, en les remplaçant côte à côte.

    La valeur par défaut, ResultOnly, affiche uniquement les nouvelles valeurs. L’option InPlace remplace les valeurs de colonne existantes par les nouveaux niveaux.

  5. Pour le nom de niveau par défaut, tapez une valeur de chaîne à utiliser comme remplacement de toutes les valeurs qui ne sont pas explicitement mappées. Vous pouvez utiliser un type « inconnu » ou « par défaut ».

    Notes

    Cette valeur de niveau par défaut est appliquée à toutes les valeurs qui ne peuvent pas être mappées. Si vous avez accidentellement inclus des colonnes que vous n’avez pas l’intention de mapper, la valeur est appliquée à toutes les valeurs des colonnes. Par conséquent, vérifiez que la sélection de la colonne est correcte avant le traitement.

  6. Pour nouveau nombre de niveaux, tapez un nombre qui indique le nombre total de nouvelles catégories (niveaux), y compris le niveau par défaut pour les valeurs non mappées.

  7. Pour le nom du nouveau niveau 1, indiquez le nom du nouveau groupe pour la première catégorie.

  8. Dans la zone de texte qui suit immédiatement, liste séparée par des virgules des anciens niveaux à mapper au nouveau niveau 1, tapez ou collez une liste exhaustive de toutes les valeurs à mapper au nouveau niveau. Les caractères génériques et les expressions régulières ne sont pas autorisés.

  9. Continuez à taper de nouveaux noms de niveaux et tapez ou collez les valeurs qui doivent être mappées au nouveau niveau.

    Nous vous recommandons d’enregistrer votre liste de valeurs dans un fichier distinct au fur et à mesure que vous travaillez. Si vous modifiez le nombre de niveaux, toutes les chaînes que vous avez tapées précédemment sont supprimées et vous devez recommencer.

    Toutefois, si vous modifiez un module précédemment enregistré, vous pouvez rétablir les paramètres d’origine.

  10. Exécutez l’expérience.

Résultats

Pour afficher les résultats, cliquez avec le bouton droit sur le module groupe de valeurs catégoriques , sélectionnez jeu de données de résultats, puis cliquez sur visualiser.

Exemples

Pour obtenir des exemples d’Machine Learning en action, consultez la Azure ai Gallery.

vous pouvez également essayer ce module par vous-même, en utilisant un petit jeu de données avec des variables de chaîne pouvant être facilement regroupées, comme le jeu de données de prix Automobile fourni dans Machine Learning Studio (classic).

Supposons que vous souhaitez regrouper les voitures dans le jeu de données de prix d’automobile par taille de moteur, en utilisant le nombre de cylindres. Plutôt que de nombreuses tailles de moteur différentes, vous allez créer les nouveaux niveaux, « Big », « Small » et « other », comme suit :

  • Grands moteurs : six cylindres ou plus
  • Petits moteurs : deux ou quatre cylindres
  • Autre : autre chose
  1. Ajoutez le module Sélectionner des colonnes dans le jeu de données et sélectionnez uniquement la num-of-cylinders colonne.
  2. Ajoutez le module modifier les métadonnées et remplacez la num-of-cylinders colonne par catégoriques.
  3. Ajoutez le module groupe de valeurs catégoriques et connectez le jeu de données modifié.
  4. Pour le nom de niveau par défaut, tapez other . Vous n’avez pas besoin de fournir des valeurs pour ce niveau.
  5. Pour le nom du nouveau niveau 1, tapez big . Dans la liste des anciens niveaux à mapper au niveau 1, collez six, eight, twelve .
  6. Pour le nom du nouveau niveau 2, tapez small . Pour les valeurs mappées, collez two, four .
  7. Exécutez l’expérience.
  8. Lorsque vous Visualisez les résultats, vous vous rendez compte que le jeu de données d’origine avait des tailles de moteur impaires, telles que five et three . Tous ces éléments sont mappés au other niveau.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

  • Vous pouvez rencontrer le message d’erreur « la colonne portant le nom « < ColumnName > » n’est pas dans une catégorie autorisée».

    Ce message indique que la colonne que vous avez sélectionnée n'est pas une colonne catégorielle. Vous pouvez marquer la colonne comme à l’aide de modifier les métadonnées, ou sélectionner une autre colonne qui contient les Categorical valeurs de catégorie appropriées.

Entrées attendues

Nom Type Description
Dataset Table de données Données à regrouper

Paramètres du module

Nom Plage Type Default Description
Colonnes sélectionnées n'importe laquelle ColumnSelection CategoricalAll Sélectionnez les colonnes qui seront regroupées.
Mode de sortie n'importe laquelle OutputTo ResultOnly Spécifiez le mode de sortie des étiquettes catégorielles.
Nom du niveau par défaut n'importe laquelle String Indiquez le niveau par défaut à utiliser si aucun mappage ne correspond.
Nouveau nombre de niveaux Liste Nombre de groupes Spécifier le nombre de niveaux après que les valeurs ont été regroupées, y compris le niveau par défaut.

Output

Nom Type Description
Jeu de données de résultats Table de données Données groupées

Voir aussi

Manipulation
Transformation des données
Liste alphabétique des modules