Forêt d’arbres décisionnels à deux classes

2019-05-06

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Crée un modèle de classification à deux classes à l'aide de l'algorithme de forêt d'arbres de décision

catégorie : Machine Learning/initialiser le modèle/la Classification

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module de forêt de décision à deux classes dans Machine Learning Studio (classic) pour créer un modèle de Machine Learning basé sur l’algorithme des forêts de décision.

Les forêts d’arbres décisionnels sont des modèles ensemblistes rapides et supervisés. Ce module est une bonne solution pour prédire une cible présentant un maximum de deux résultats. Si vous ne savez pas comment configurer un modèle d’arbre de décision pour obtenir les meilleurs résultats, nous vous recommandons d’utiliser le module régler le modèle hyperparamètres pour effectuer l’apprentissage et le test de plusieurs modèles. le paramétrage itère sur plusieurs possibilités et recherche la solution optimale pour vous.

Bien comprendre les forêts d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels est une méthode d’apprentissage ensembliste destinée à des tâches de classification. Les méthodes ensemblistes sont fondées sur le principe général suivant : plutôt que de s’appuyer sur un modèle unique, on peut obtenir de meilleurs résultats et un modèle plus généralisé en créant plusieurs modèles liés et en les combinant d’une certaine façon. En général, les modèles ensemblistes offrent une meilleure couverture et une précision plus élevée que les arbres de décision uniques.

Il existe de nombreuses façons de créer des modèles individuels et de les combiner pour former un ensemble. Cette implémentation particulière de la forêt d’arbres décisionnels consiste à créer plusieurs arbres de décision, puis à voter pour sélectionner la classe de sortie la plus populaire. Le vote est l’un des moyens les plus connus de générer des résultats dans un modèle ensembliste.

De nombreux arbres de classification individuels sont créés, avec l’ensemble du jeu de données, mais différents points de départ (généralement randomisés). Cette approche est différente de celle de la forêt aléatoire, selon laquelle les arbres de décision individuels peuvent n’utiliser qu’une partie randomisée des données ou des fonctionnalités.
Chacun des arbres de la forêt d’arbres décisionnels donne en sortie un histogramme à fréquence non normalisée d’étiquettes.
Le processus d’agrégation additionne ces histogrammes et normalise le résultat pour obtenir les « probabilités » de chaque étiquette.
Les arbres présentant un niveau de confiance élevé en matière de prédiction pèsent davantage dans la décision finale de l’ensemble.

Les arbres de décision présentent en général de nombreux avantages pour les tâches de classification :

Ils peuvent capturer des limites de décisions non linéaires.
Il est possible d’effectuer un apprentissage et d’établir des prédictions sur de gros volumes de données, car ils sont efficaces dans l’utilisation du processeur et de la mémoire.
La sélection de fonctionnalités est intégrée aux processus d’apprentissage et de classification.
Les arbres peuvent contenir des données bruyantes et de nombreuses fonctionnalités.
Ce sont des modèles non paramétriques, ce qui signifie qu’ils peuvent gérer des données présentant des distributions variées.

Toutefois, les arbres de décision simples présentent un risque de surajustement par rapport aux données et sont moins généralisables que les ensembles d’arbres.

Pour plus d’informations, consultez les forêts de décisionou les autres documents listés dans la section Notes techniques .

Comment configurer Two-Class forêt de décision

ajoutez le module de la forêt de décision à deux classes à votre expérience dans Machine Learning Studio (classic), puis ouvrez le volet propriétés du module.

Vous trouverez le module sous Machine Learning. Développez Initialiser, puis Classification.
Pour Méthode de rééchantillonnage, choisissez la méthode utilisée pour créer les arbres individuels : Bagging ou Réplication.
- Bagging : le bagging, également appelé agrégation boostrap, est une méthode selon laquelle chaque arbre est développé sur un nouvel échantillon, créé en échantillonnant le jeu de données d’origine de manière aléatoire à l’aide d’un ensemble de remplacement jusqu’à obtenir un jeu de données de taille identique à l’original.
  
  Les sorties des modèles sont combinées grâce à un vote qui est une forme d’agrégation. Chaque arborescence dans une forêt de décision de classification génère un histogramme non normalisé des étiquettes. L’agrégation consiste à additionner ces histogrammes et normalise pour obtenir les « probabilités » pour chaque étiquette. Ainsi, les arbres présentant un niveau de confiance élevé en matière de prédiction pèseront davantage dans la décision finale de l’ensemble.
  
  Pour plus d’informations, voir l’entrée Wikipedia Bootstrap aggregating (en anglais).
- Réplication : avec la réplication, l’apprentissage de chacun des arbres est effectué sur les mêmes données d’entrée. Le prédicat fractionné utilisé pour chaque nœud d’arbre est toujours déterminé de manière aléatoire ; les arbres sont variés.
  
  Pour plus d’informations sur le processus d’apprentissage avec l’option Replicate , consultez les documents listés dans la section Notes techniques .
Spécifiez le mode d’apprentissage du modèle en définissant l’option Créer un mode d’apprentissage.
- Single Parameter (Paramètre unique) : si vous savez comment vous voulez configurer le modèle, vous pouvez fournir un ensemble spécifique de valeurs comme arguments.
- Plage de paramètres: Si vous n’êtes pas sûr des meilleurs paramètres, vous pouvez trouver les paramètres optimaux en spécifiant plusieurs valeurs et en utilisant le module régler le modèle hyperparamètres pour trouver la configuration optimale. L’instructeur effectue une itération sur plusieurs combinaisons de paramètres que vous avez fournies et détermine la combinaison des valeurs qui produit le meilleur modèle.
Dans le champ Nombre d’arbres de décision, saisissez le nombre maximal d’arbres de décision qui peuvent être créés dans l’ensemble. Plus il y en a, meilleure peut être la couverture, mais plus le temps d’apprentissage augmente.

Notes

Cette valeur contrôle également le nombre d’arbres qui s’affichent dans la visualisation du modèle entraîné. Si vous souhaitez voir ou imprimer un seul arbre, vous pouvez définir la valeur sur 1. Toutefois, un seul arbre sera produit (l’arbre avec le jeu de paramètres initial) sans qu’aucune autre itération soit effectuée.
Dans le champ Profondeur maximale des arbres de décision, tapez un nombre pour limiter la profondeur de chacun des arbres de décision. Le fait d’augmenter la profondeur de l’arbre est susceptible d’améliorer la précision, au prix d’un risque de surajustement et d’augmentation du temps d’apprentissage.
Dans le champ Nombre de fractionnements aléatoires par nœud, tapez le nombre de fractionnements à utiliser pour créer chacun des nœuds de l’arbre. Le fractionnement consiste à diviser de manière aléatoire les fonctionnalités à chaque niveau de l’arbre (nœud).
Dans le champ Nombre minimal d’échantillons par nœud terminal, indiquez le nombre minimal de cas requis pour la création d’un nœud terminal dans un arbre.

Plus cette valeur est grande, plus le seuil de création de règles augmente. Par exemple, la valeur par défaut de 1, un seul cas suffit à entraîner la création d’une règle. Si vous définissez la valeur sur 5, les données d’apprentissage doivent contenir au moins 5 cas respectant les mêmes conditions.
Sélectionnez l’option Autoriser les valeurs inconnues pour les fonctionnalités catégorielles afin de créer un groupe pour les valeurs inconnues des jeux d’apprentissage ou de validation. Le modèle risque d’être moins précis pour les valeurs connues, mais il pourra fournir de meilleures prédictions pour les nouvelles valeurs (inconnues).

Si cette option est désélectionnée, le modèle n’accepte que les valeurs contenues dans les données d’apprentissage.
Joignez un jeu de données étiqueté et l’un des modules d’apprentissage :
- Si vous définissez Créer un mode d’apprentissage sur Paramètre unique, utilisez le module Entraîner le du modèle.
- Si vous affectez à créer le mode formateur la valeur plage de paramètres, utilisez les hyperparamètres du modèle d’optimisation.
Notes

Si vous transmettez une plage de paramètres pour former le modèle, seule la première valeur de la liste plage de paramètres est utilisée.

Si vous transmettez un ensemble unique de valeurs de paramètre au module Optimiser les hyperparamètres du modèle, quand il attend une plage de paramètres pour chaque paramètre, il ignore les valeurs et utilise les valeurs par défaut pour l’apprenant.

Si vous sélectionnez l’option plage de paramètres et que vous entrez une valeur unique pour un paramètre, cette valeur unique est utilisée tout au long du balayage, même si d’autres paramètres changent sur une plage de valeurs.

Résultats

Une fois l’apprentissage terminé :

Pour afficher l’arborescence qui a été créée à chaque itération, cliquez avec le bouton droit sur module former le modèle et sélectionnez modèle formé à visualiser. Si vous utilisez les hyperparamètres du modèle d’optimisation, cliquez avec le bouton droit sur le module et sélectionnez le meilleur modèle formé pour visualiser le meilleur modèle.

Cliquez sur chaque arbre pour explorer les fractionnements et afficher les règles de chaque nœud.
Pour enregistrer un instantané du modèle, cliquez avec le bouton droit sur la sortie Modèle entraîné et sélectionnez Enregistrer le modèle. Le modèle enregistré n’est pas mis à jour lors des différentes exécutions de l’expérience.
Pour utiliser le modèle à des fins de scoring, ajoutez le module Noter le modèle à une expérience.

Exemples

Pour obtenir des exemples d’utilisation des forêts de décision dans Machine Learning, consultez les exemples d’expériences dans le Azure ai Gallery:

Catégorisation des actualités: compare un classifieur multiclasse à un modèle créé à l’aide de l’algorithme de forêt de décision à deux classes avec l' One-vs-All multiCLASS.
Maintenance prédictive: procédure pas à pas étendue qui utilise l’algorithme de forêt de décision à deux classes pour prédire si un élément multimédia échouera dans un laps de temps donné.

Notes techniques

Cette section contient des informations supplémentaires sur l’implémentation, des recherches et des questions fréquemment posées.

Conseils d’utilisation

Si vous avez des données limitées ou si vous souhaitez réduire le temps consacré à l’apprentissage du modèle, essayez les paramètres suivants :

Jeu d’apprentissage limité

Si le jeu d'apprentissage contient un nombre limité d'instances :

Créer la forêt décisionnelle en utilisant un grand nombre d'arbres de décision (par exemple, plus de 20).
Utilisez l'option Bagging pour le rééchantillonnage.
Spécifiez un grand nombre de fractionnements aléatoires par nœud (par exemple, plus de 1 000).

Temps d’apprentissage limité

Si le jeu d'apprentissage contient un grand nombre d'instances et que le temps d'apprentissage est limité :

Créer la forêt décisionnelle en utilisant moins d'arbres de décision (par exemple, entre 5 et 10).
Utilisez l'option Répliquer pour le rééchantillonnage.
Spécifier un plus petit nombre de fractionnements aléatoires par nœud (par exemple, moins de 100).

Informations d’implémentation

Cet article de Microsoft Research fournit des informations utiles sur les méthodes d’ensemble qui utilisent des arbres de décision. Entre les souches et les arbres et les forêts.

pour plus d’informations sur le processus d’apprentissage avec l’option de réplication , consultez la rubrique forêts de décision pour Vision par ordinateur et l’analyse des images médicales. Criminisi et J. Shotton. Springer Link 2013.

Paramètres du module

Nom	Plage	Type	Default	Description
Méthode de rééchantillonnage	Quelconque	ResamplingMethod	Bagging	Choisissez une méthode de rééchantillonnage
Nombre d'arbres de décision	>=1	Integer	8	Spécifiez le nombre d'arbres de décision à créer dans l'ensemble
Profondeur maximale des arbres de décision	>=1	Integer	32	Spécifiez la profondeur maximale de n'importe quel arbre de décision qui peut être créé
Nombre de fractionnements aléatoires par nœud	>=1	Integer	128	Spécifiez le nombre de fractionnements générés par nœud, à partir duquel le fractionnement optimal est sélectionné
Nombre minimal d'échantillons par nœud terminal	>=1	Integer	1	Spécifiez le nombre minimal d'exemples d'apprentissage nécessaires pour produire un nœud terminal
Autorisez les valeurs inconnues pour les fonctionnalités par catégorie	Quelconque	Boolean	True	Indiquez si les valeurs inconnues de fonctionnalités catégorielles existantes peuvent être mappées à une nouvelle fonctionnalité supplémentaire

Output

Nom	Type	Description
Untrained model (Modèle non entraîné)	Interface ILearner	Modèle de classification binaire non formé

Voir aussi

Classification
Régression de forêt d’arbres décisionnels
Forêt d’arbres décisionnels multiclasse
Liste alphabétique des modules

Partager via