Épisode

Optimisation bayésienne avec des réseaux neuronaux bayésiens robustes

par Jost Tobias Springenberg

Conférence neuronale des systèmes de traitement des informations - NIPS 2016

L’optimisation bayésienne est une méthode importante permettant d’optimiser les fonctions de boîte noire coûteuses qui sont appliquées de manière importante au réglage des hyperparamètres des algorithmes d’apprentissage automatique. Malgré ses succès, l’approche d’optimisation bayésienne prototypageienne - à l’aide de modèles de processus Gaussian - ne s’adapte pas bien à de nombreuses hyperparamètres ou à de nombreuses évaluations de fonction. Attaquer ce manque d’extensibilité et de flexibilité est donc l’un des principaux défis du domaine. Nous présentons une approche générale de l’utilisation de modèles paramétriques flexibles (réseaux neuronaux) pour l’optimisation bayésienne, en restant aussi près d’un traitement véritablement bayésien que possible. Nous obtenons une scalabilité par le biais d’un gradient stochastique hamiltonien Monte Carlo, dont la robustesse nous améliore par le biais d’une adaptation à l’échelle. Les expériences, notamment l’optimisation bayésienne multi-tâches avec 21 tâches, l’optimisation parallèle des réseaux neuronaux profonds et l’apprentissage par renforcement profond montrent la puissance et la flexibilité de cette approche.