Uczenie z użyciem transferu

Ukończone

W życiu często łatwiej jest nauczyć się nowych umiejętności, jeśli masz już wiedzę w podobnej, przenoszonej umiejętności. Na przykład prawdopodobnie łatwiej jest nauczyć kogoś, jak jeździć autobusem, jeśli już nauczyli się jeździć samochodem. Kierowca może opierać się na umiejętnościach jazdy, których już nauczyli się w samochodzie, i zastosować je do jazdy autobusem.

Tę samą zasadę można zastosować do trenowania modeli uczenia głębokiego za pomocą techniki nazywanej uczeniem transferowym.

Jak działa uczenie transferowe

Konwolucyjna sieć neuronowa (CNN) do klasyfikacji obrazów składa się zazwyczaj z wielu warstw, które wyodrębniają funkcje, a następnie używają ostatecznej w pełni połączonej warstwy do klasyfikowania obrazów na podstawie tych funkcji.

A CNN consisting of a set of feature extraction layers and a fully-connected prediction layer

Koncepcyjnie ta sieć neuronowa składa się z dwóch odrębnych zestawów warstw:

  1. Zestaw warstw z modelu podstawowego, który wykonuje wyodrębnianie funkcji.
  2. W pełni połączona warstwa, która pobiera wyodrębnione funkcje i używa ich do przewidywania klas.

Warstwy wyodrębniania cech stosują splotowe filtry i pule, aby podkreślić krawędzie, narożniki i inne wzorce na obrazach, które mogą być używane do ich rozróżniania, a teoretycznie powinny działać dla dowolnego zestawu obrazów o tych samych wymiarach co warstwa wejściowa sieci. Warstwa przewidywania mapuje funkcje na zestaw danych wyjściowych reprezentujących prawdopodobieństwo dla każdej etykiety klasy, której chcesz użyć do klasyfikowania obrazów.

Oddzielając sieć do tych typów warstw, możemy pobrać warstwy wyodrębniania funkcji z modelu, który został już wytrenowany i dołączyć co najmniej jedną warstwę, aby użyć wyodrębnionych funkcji do przewidywania odpowiednich etykiet klas dla obrazów. Takie podejście pozwala zachować wstępnie wytrenowane wagi dla warstw wyodrębniania funkcji, co oznacza, że trzeba trenować tylko dodane warstwy przewidywania.

Istnieje wiele ustanowionych splotowych architektur sieci neuronowych do klasyfikacji obrazów, których można użyć jako modelu podstawowego do uczenia transferowego, dzięki czemu można opierać się na pracy, którą ktoś inny zrobił już, aby łatwo utworzyć skuteczny model klasyfikacji obrazów.