Convertir en valeurs d’indicateur

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Convertit les valeurs catégorielles présentes dans des colonnes en valeurs d'indicateur

Catégorie : transformation/manipulation des données

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module convertir en valeurs d’indicateur dans Machine Learning Studio (classic). L’objectif de ce module est de convertir les colonnes qui contiennent des valeurs catégoriques en une série de colonnes d’indicateurs binaires qui peuvent être plus facilement utilisées en tant que fonctionnalités dans un modèle de Machine Learning.

Comment configurer le module Convertir en valeurs d’indicateur

ajoutez le module convertir en valeurs d’indicateur à votre expérience Machine Learning et connectez-le au jeu de données contenant les colonnes que vous souhaitez convertir. Vous pouvez trouver ce module sous transformations de donnéesdans la catégorie manipulation .
Utilisez le sélecteur de colonne pour choisir une ou plusieurs colonnes catégorielles.

Pour vous assurer que les colonnes que vous sélectionnez sont catégoriques, utilisez modifier les métadonnées avant de convertir en valeurs d’indicateur dans votre expérience pour marquer la colonne cible comme catégorique.
Sélectionnez l’option Remplacer les colonnes catégorielles si vous souhaitez obtenir en sortie uniquement les nouvelles colonnes booléennes.

Par défaut, cette option est désactivée, ce qui vous permet de voir la colonne catégorique qui est la source, ainsi que les colonnes d’indicateurs associées.

Conseil

Si vous choisissez l’option de remplacement, la colonne source n’est pas réellement supprimée ou modifiée. Au lieu de cela, les nouvelles colonnes sont générées et présentées dans le jeu de données de sortie, et la colonne source reste disponible dans l’espace de travail. Si vous avez besoin de voir les données d’origine, vous pouvez utiliser le module Ajouter des colonnes à tout moment pour rajouter la colonne source.
Exécutez l’expérience.

Résultats

Par exemple, supposons que vous ayez une colonne avec des scores qui indiquent si un serveur a une probabilité élevée, moyenne ou faible de défaillance.

ID du serveur	Score de défaillance
10301	Faible
10302	Moyenne
10303	Élevé

Lorsque vous appliquez Convert aux valeurs d’indicateur, la colonne unique des étiquettes est convertie en plusieurs colonnes contenant des valeurs booléennes :

ID du serveur	Probabilité de défaillance - Faible	Probabilité de défaillance - Moyenne	Probabilité de défaillance - Élevée
10301	1	0	0
10302	0	1	0
10303	0	0	1

Voici comment fonctionne la conversion :

Dans la colonne Probabilité de défaillance qui décrit le risque, il n’y a que trois valeurs possibles (Élevée, Moyenne et Faible), et aucune valeur manquante. Par conséquent, exactement trois nouvelles colonnes sont créées.
Les nouvelles colonnes d’indicateurs sont nommées en fonction des en-têtes de colonne et des valeurs de la colonne source, à l’aide de ce modèle : <colonne source>- <valeur de données>.
Il doit y avoir un 1 dans une colonne d’indicateur exactement et 0 dans toutes les autres colonnes d’indicateur. Cela est dû au fait que chaque serveur ne peut avoir qu’une seule évaluation de risque.

Vous pouvez désormais utiliser les trois colonnes d’indicateur en tant que fonctionnalités et analyser leur corrélation avec d’autres propriétés associées à un niveau de risque différent.

Exemples

Pour obtenir des exemples d’utilisation de ce module, consultez la Azure ai Gallery:

Détection du cancer du sein: les patients sont Binned (en groupes en fonction des numéros d’identification des patients, puis les valeurs d’indicateur sont utilisées pour indiquer à quel groupe le patient appartient. Ensuite, les indicateurs de groupe sont utilisées lors de l'évaluation des modèles.
Marketing direct: les probabilités sont comparées à une constante à l’aide de l' opération Apply Math, et les valeurs Yes/No qui indiquent si le score est supérieur ou inférieur à la constante sont transformées en nouvelles colonnes d’indicateurs.
Détection des intrusionssur le réseau : les données de journal sont chargées à partir du stockage Azure. La variable de classe (qui indique, par exemple, si une attaque correspond à un rootkit ou à un dépassement de mémoire tampon) est convertie en colonne catégorielle, puis étendue à plusieurs valeurs d'indicateurs.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Conseils d’utilisation

Seules les colonnes qui sont marquées comme catégorielles peuvent être converties en colonnes d’indicateurs. Si vous voyez cette erreur, il est probable que l’une des colonnes que vous avez sélectionnées n’est pas catégorique :

Erreur 0056 : la colonne portant le nom <nom de colonne> n’appartient pas à une catégorie autorisée.

Par défaut, la plupart des colonnes de chaîne sont gérées comme des fonctionnalités de chaîne. vous devez donc les marquer explicitement comme catégoriques à l’aide de modifier les métadonnées.
Une erreur s’affiche si vous ne sélectionnez pas au moins une colonne catégorique.
Le nombre de colonnes que vous pouvez convertir en colonnes d’indicateur n’est pas limité. Toutefois, étant donné que chaque colonne de valeurs peut générer plusieurs colonnes d’indicateur, vous souhaiterez peut-être convertir et revoir uniquement quelques colonnes à la fois.
Si la colonne contient des valeurs manquantes, une colonne d’indicateur distincte est créée pour la catégorie manquante, avec le nom suivant : <colonne source>- Manquante
Si la colonne que vous convertissez en valeurs d’indicateur contient des nombres, ceux-ci doivent être marqués comme étant catégoriels comme toute autre colonne de caractéristique. Cela étant fait, les nombres sont traités comme des valeurs discrètes. Par exemple, si vous avez une colonne numérique contenant des valeurs de consommation de carburant (en MPG, miles par gallon) comprises entre 25 et 30, une nouvelle colonne d’indicateur est créée pour chaque valeur discrète :

Marque MPG sur autoroute -25 MPG sur autoroute -26 MPG sur autoroute -27 MPG sur autoroute -28 MPG sur autoroute -29 MPG sur autoroute -30

Alfa Roméo 0 0 0 0 0 1

Pour éviter d’obtenir un grand nombre de colonnes d’indicateurs, nous vous recommandons de vérifier d’abord le nombre de valeurs dans la colonne, et d’ajouter bin ou de quantifier les données de manière appropriée.

Marque	MPG sur autoroute -25	MPG sur autoroute -26	MPG sur autoroute -27	MPG sur autoroute -28	MPG sur autoroute -29	MPG sur autoroute -30
Alfa Roméo	0	0	0	0	0	1

Entrées attendues

Nom	Type	Description
Dataset	Table de données	Jeu de données avec colonnes catégorielles

Paramètres du module

Nom	Plage	Type	Default	Description
Colonnes catégorielles à convertir	Quelconque	ColumnSelection		Sélectionnez les colonnes catégorielles à convertir en matrices d'indicateurs.
Remplacer des colonnes catégorielles	Quelconque	Boolean	false	Si la valeur est True, remplace les colonnes catégorielles sélectionnées. Dans le cas contraire, ajoute les matrices d'indicateurs résultantes au jeu de données.

Output

Nom	Type	Description
Jeu de données de résultats	Table de données	Jeu de données avec colonnes catégorielles converties en matrices d'indicateurs.

Voir aussi

Manipulation
Transformation des données
Liste alphabétique des modules

Partager via