Apprentissage par transfert
Dans la vie, il est souvent plus facile d’apprendre une nouvelle compétence si vous avez déjà une expertise dans une compétence comparable et transférable. Par exemple, il est probablement plus facile d’apprendre à quelqu’un comment conduire un bus s’ils ont déjà appris à conduire une voiture. Le conducteur peut se baser sur les compétences de conduite qu’il a déjà apprises dans une voiture et les appliquer à la conduite d’un bus.
Le même principe peut être appliqué à l’apprentissage des modèles d’apprentissage profond par le biais d’une technique appelée apprentissage de transfert.
Le fonctionnement de l’apprentissage par transfert
Un réseau neuronal convolutionnel (CNN) pour la classification d’images est généralement composé de plusieurs couches qui extraient des caractéristiques, puis d’utiliser une couche entièrement connectée finale pour classifier les images en fonction de ces fonctionnalités.

Conceptuellement, ce réseau neuronal se compose de deux ensembles distincts de couches :
- Ensemble de couches à partir du modèle de base qui effectuent l’extraction de fonctionnalités.
- Couche entièrement connectée qui prend les fonctionnalités extraites et les utilise pour la prédictionde classe.
Les couches d’extraction de caractéristiques appliquent des filtres convolutionnels et un regroupement pour mettre en évidence les bords, les angles et d’autres modèles dans les images qui peuvent être utilisées pour les différencier, et en théorie doivent fonctionner pour n’importe quel ensemble d’images avec les mêmes dimensions que la couche d’entrée du réseau. La couche de prédiction mappe les fonctionnalités à un ensemble de sorties qui représentent des probabilités pour chaque étiquette de classe que vous souhaitez utiliser pour classifier les images.
En séparant le réseau en ces types de couches, nous pouvons prendre les couches d’extraction de caractéristiques d’un modèle qui a déjà été formé et ajouter une ou plusieurs couches pour utiliser les fonctionnalités extraites pour la prédiction des étiquettes de classe appropriées pour vos images. Cette approche vous permet de conserver les poids préformés pour les couches d’extraction de fonctionnalités, ce qui signifie que vous devez uniquement effectuer l’apprentissage des couches de prédiction que vous avez ajoutées.
Il existe de nombreuses architectures de réseau neuronal convolutionnel établies pour la classification d’images que vous pouvez utiliser comme modèle de base pour l’apprentissage de transfert. Vous pouvez donc vous appuyer sur le travail que quelqu’un d’autre a déjà fait pour créer facilement un modèle de classification d’images efficace.