Épisode
Optimisation bayésienne avec des réseaux neuronaux bayésiens robustes
par Jost Tobias Springenberg
L’optimisation bayésienne est une méthode importante permettant d’optimiser les fonctions de boîte noire coûteuses qui sont appliquées de manière importante au réglage des hyperparamètres des algorithmes d’apprentissage automatique. Malgré ses succès, l’approche d’optimisation bayésienne prototypageienne - à l’aide de modèles de processus Gaussian - ne s’adapte pas bien à de nombreuses hyperparamètres ou à de nombreuses évaluations de fonction. Attaquer ce manque d’extensibilité et de flexibilité est donc l’un des principaux défis du domaine. Nous présentons une approche générale de l’utilisation de modèles paramétriques flexibles (réseaux neuronaux) pour l’optimisation bayésienne, en restant aussi près d’un traitement véritablement bayésien que possible. Nous obtenons une scalabilité par le biais d’un gradient stochastique hamiltonien Monte Carlo, dont la robustesse nous améliore par le biais d’une adaptation à l’échelle. Les expériences, notamment l’optimisation bayésienne multi-tâches avec 21 tâches, l’optimisation parallèle des réseaux neuronaux profonds et l’apprentissage par renforcement profond montrent la puissance et la flexibilité de cette approche.
L’optimisation bayésienne est une méthode importante permettant d’optimiser les fonctions de boîte noire coûteuses qui sont appliquées de manière importante au réglage des hyperparamètres des algorithmes d’apprentissage automatique. Malgré ses succès, l’approche d’optimisation bayésienne prototypageienne - à l’aide de modèles de processus Gaussian - ne s’adapte pas bien à de nombreuses hyperparamètres ou à de nombreuses évaluations de fonction. Attaquer ce manque d’extensibilité et de flexibilité est donc l’un des principaux défis du domaine. Nous présentons une approche générale de l’utilisation de modèles paramétriques flexibles (réseaux neuronaux) pour l’optimisation bayésienne, en restant aussi près d’un traitement véritablement bayésien que possible. Nous obtenons une scalabilité par le biais d’un gradient stochastique hamiltonien Monte Carlo, dont la robustesse nous améliore par le biais d’une adaptation à l’échelle. Les expériences, notamment l’optimisation bayésienne multi-tâches avec 21 tâches, l’optimisation parallèle des réseaux neuronaux profonds et l’apprentissage par renforcement profond montrent la puissance et la flexibilité de cette approche.
Vous voulez donner votre avis ? Soumettez un problème ici.