Group Categorical Values
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Regroupe les données de plusieurs catégories dans une nouvelle catégorie.
Catégorie : transformation/manipulation des données
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module Group catégorique values dans Machine Learning Studio (classic) pour créer une table de recherche sur place.
L’utilisation courante du regroupement de valeurs catégoriques consiste à fusionner plusieurs valeurs de chaîne dans un nouveau niveau unique. Par exemple, vous pouvez affecter des codes postaux individuels dans une région à un seul code régional, ou regrouper plusieurs produits sous une seule catégorie.
Pour utiliser ce module, vous tapez les valeurs de recherche que vous souhaitez utiliser et vous mappez les valeurs existantes aux valeurs de remplacement. Vous pouvez créer des regroupements uniquement pour les colonnes catégoriques, pas pour les colonnes de type numérique ou de colonnes désignées comme étiquettes ou caractéristiques.
Toute valeur de colonne qui n’est pas explicitement mappée à un nouveau niveau est assignée à un niveau par défaut. Par exemple, si vous n’avez pas mappé tous les codes postaux, ceux-ci sont regroupés dans un niveau pour les valeurs non mappées, que vous pouvez nommer Unknown.
Notes
Vous pouvez créer un maximum de 20 nouveaux niveaux, y compris le niveau par défaut. Si vous avez besoin de davantage de valeurs ou si vous devez définir des mappages de manière dynamique, nous vous recommandons d’utiliser un script R personnalisé dans le module exécuter le script r . sinon, utilisez les instructions SQL dans le module appliquer SQL Transformation .
Comment utiliser les valeurs de catégorie de groupe
Nous vous recommandons de préparer au préalable la liste des valeurs existantes et les nouvelles catégories. Pour chaque catégorie, vous devez préparer un nouveau nom de catégorie et une liste de valeurs séparées par des virgules à inclure dans la catégorie.
Ajoutez le module groupe de valeurs catégoriques à votre expérience. Vous pouvez trouver le module sous transformation des données, manipulation.
Connecter un jeu de données dont vous souhaitez transformer les valeurs.
Dans le volet Propriétés du groupe valeurs catégoriques, utilisez le sélecteur de colonne pour choisir la colonne qui contient les niveaux que vous souhaitez réduire.
Nous vous recommandons de cliquer sur commencer par et aucune colonne à démarrer, puis d’ajouter des colonnes par nom. Dans le cas contraire, un trop grand nombre de colonnes peuvent être ajoutées en tant que candidats, ce qui aboutit à une erreur.
La colonne doit être une colonne catégorielle. Si ce n’est pas le cas, ajoutez modifier les métadonnées en amont, puis modifiez le type de colonne.
Veillez à supprimer de l’entrée les colonnes dans lesquelles le remplacement de chaîne ne doit pas être appliqué.
Pour le mode de sortie, indiquez si vous souhaitez générer uniquement les nouveaux niveaux, ou ajouter les modifications pour afficher la colonne d’origine, en les remplaçant côte à côte.
La valeur par défaut, ResultOnly, affiche uniquement les nouvelles valeurs. L’option InPlace remplace les valeurs de colonne existantes par les nouveaux niveaux.
Pour le nom de niveau par défaut, tapez une valeur de chaîne à utiliser comme remplacement de toutes les valeurs qui ne sont pas explicitement mappées. Vous pouvez utiliser un type « inconnu » ou « par défaut ».
Notes
Cette valeur de niveau par défaut est appliquée à toutes les valeurs qui ne peuvent pas être mappées. Si vous avez accidentellement inclus des colonnes que vous n’avez pas l’intention de mapper, la valeur est appliquée à toutes les valeurs des colonnes. Par conséquent, vérifiez que la sélection de la colonne est correcte avant le traitement.
Pour nouveau nombre de niveaux, tapez un nombre qui indique le nombre total de nouvelles catégories (niveaux), y compris le niveau par défaut pour les valeurs non mappées.
Pour le nom du nouveau niveau 1, indiquez le nom du nouveau groupe pour la première catégorie.
Dans la zone de texte qui suit immédiatement, liste séparée par des virgules des anciens niveaux à mapper au nouveau niveau 1, tapez ou collez une liste exhaustive de toutes les valeurs à mapper au nouveau niveau. Les caractères génériques et les expressions régulières ne sont pas autorisés.
Continuez à taper de nouveaux noms de niveaux et tapez ou collez les valeurs qui doivent être mappées au nouveau niveau.
Nous vous recommandons d’enregistrer votre liste de valeurs dans un fichier distinct au fur et à mesure que vous travaillez. Si vous modifiez le nombre de niveaux, toutes les chaînes que vous avez tapées précédemment sont supprimées et vous devez recommencer.
Toutefois, si vous modifiez un module précédemment enregistré, vous pouvez rétablir les paramètres d’origine.
Exécutez l’expérience.
Résultats
Pour afficher les résultats, cliquez avec le bouton droit sur le module groupe de valeurs catégoriques , sélectionnez jeu de données de résultats, puis cliquez sur visualiser.
Exemples
Pour obtenir des exemples d’Machine Learning en action, consultez la Azure ai Gallery.
vous pouvez également essayer ce module par vous-même, en utilisant un petit jeu de données avec des variables de chaîne pouvant être facilement regroupées, comme le jeu de données de prix Automobile fourni dans Machine Learning Studio (classic).
Supposons que vous souhaitez regrouper les voitures dans le jeu de données de prix d’automobile par taille de moteur, en utilisant le nombre de cylindres. Plutôt que de nombreuses tailles de moteur différentes, vous allez créer les nouveaux niveaux, « Big », « Small » et « other », comme suit :
- Grands moteurs : six cylindres ou plus
- Petits moteurs : deux ou quatre cylindres
- Autre : autre chose
- Ajoutez le module Sélectionner des colonnes dans le jeu de données et sélectionnez uniquement la
num-of-cylinders
colonne. - Ajoutez le module modifier les métadonnées et remplacez la
num-of-cylinders
colonne par catégoriques. - Ajoutez le module groupe de valeurs catégoriques et connectez le jeu de données modifié.
- Pour le nom de niveau par défaut, tapez
other
. Vous n’avez pas besoin de fournir des valeurs pour ce niveau. - Pour le nom du nouveau niveau 1, tapez
big
. Dans la liste des anciens niveaux à mapper au niveau 1, collezsix, eight, twelve
. - Pour le nom du nouveau niveau 2, tapez
small
. Pour les valeurs mappées, colleztwo, four
. - Exécutez l’expérience.
- Lorsque vous Visualisez les résultats, vous vous rendez compte que le jeu de données d’origine avait des tailles de moteur impaires, telles que
five
etthree
. Tous ces éléments sont mappés auother
niveau.
Notes techniques
Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.
Vous pouvez rencontrer le message d’erreur « la colonne portant le nom « < ColumnName > » n’est pas dans une catégorie autorisée».
Ce message indique que la colonne que vous avez sélectionnée n'est pas une colonne catégorielle. Vous pouvez marquer la colonne comme à l’aide de modifier les métadonnées, ou sélectionner une autre colonne qui contient les
Categorical
valeurs de catégorie appropriées.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Données à regrouper |
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Colonnes sélectionnées | n'importe laquelle | ColumnSelection | CategoricalAll | Sélectionnez les colonnes qui seront regroupées. |
Mode de sortie | n'importe laquelle | OutputTo | ResultOnly | Spécifiez le mode de sortie des étiquettes catégorielles. |
Nom du niveau par défaut | n'importe laquelle | String | Indiquez le niveau par défaut à utiliser si aucun mappage ne correspond. | |
Nouveau nombre de niveaux | Liste | Nombre de groupes | Spécifier le nombre de niveaux après que les valeurs ont été regroupées, y compris le niveau par défaut. |
Output
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Données groupées |
Voir aussi
Manipulation
Transformation des données
Liste alphabétique des modules