Перенос обучения

Завершено

В жизни часто бывает проще получить новый навык при наличии опыта в аналогичной сфере. Например, возможно, проще научить человека водить автобус, если он уже умеет управлять автомобилем. Водитель может развить уже имеющиеся навыки вождения автомобиля и применить их к управлению автобусом.

Тот же принцип действует для моделей глубокого обучения в рамках методики, называемой передачей обучения.

Как работает передача обучения

Сверточная нейронная сеть (CNN) для классификации изображений обычно состоит из нескольких слоев, которые извлекают признаки, а затем используют завершающий полносвязный слой для классификации изображений на основе этих признаков.

A CNN consisting of a set of feature extraction layers and a fully-connected prediction layer

По сути, эта нейронная сеть состоит из двух разных наборов слоев:

  1. набор слоев из базовой модели, которые выполняют извлечение признаков;
  2. полносвязный слой, который принимает извлеченные признаки и использует их для прогнозирования класса.

Слои извлечения признаков применяют сверточные фильтры и объединение для выделения сторон, углов и других частей в изображениях, используемых для их различия, и теоретически они должны работать с любым набором изображений с теми же измерениями, что и входной слой сети. Слой прогнозирования сопоставляет признаки с набором выходных данных, представляющих вероятности для каждой метки класса, которая будет использоваться для классификации изображений.

Разделив сеть на такие типы слоев, можно брать слои извлечения признаков из уже обученной модели и добавлять один слой или несколько, чтобы использовать извлеченные признаки для прогнозирования соответствующих меток классов для изображений. Такой подход позволяет оставлять предварительно обученные веса для слоев извлечения признаков, что означает, что необходимо обучить только добавленные слои прогнозирования.

Для классификации образа существует множество признанных архитектур сверточных нейронных сетей, которые можно использовать в качестве базовой модели для передачи обучения, поэтому можно воспользоваться уже готовыми наработками и без труда создать эффективную модель классификации изображений.