Odcinek
Normalizacja wagi: prosta reparametryzacja przyspieszania trenowania głębokich sieci neuronowych
with Tim Salimans
Przedstawiamy normalizację wagi: reparametryzację wektorów wagi w sieci neuronowej, która rozdziela długość tych wektorów wagowych z ich kierunku. Poprzez dostosowanie wag w ten sposób poprawiamy kondycję problemu optymalizacji i przyspieszamy zbieżność stochastycznego spadku gradientu. Nasza reparametryzacja jest inspirowana normalizacją wsadową, ale nie wprowadza żadnych zależności między przykładami w minibatch. Oznacza to, że nasza metoda może być również pomyślnie stosowana do cyklicznych modeli, takich jak LSTMs i aplikacji wrażliwych na szum, takich jak uczenie głębokie wzmocnienie lub modele generowania, dla których normalizacja wsadowa jest mniej odpowiednia. Mimo że nasza metoda jest znacznie prostsza, nadal zapewnia większą szybkość pełnej normalizacji wsadowej. Ponadto obciążenie obliczeniowe naszej metody jest niższe, co pozwala na wykonanie większej liczby kroków optymalizacji w tym samym czasie. Przedstawiamy użyteczność naszej metody w aplikacjach w nadzorowanym rozpoznawaniu obrazów, modelowaniu generowania i uczeniu głębokiego wzmacniania.
Przedstawiamy normalizację wagi: reparametryzację wektorów wagi w sieci neuronowej, która rozdziela długość tych wektorów wagowych z ich kierunku. Poprzez dostosowanie wag w ten sposób poprawiamy kondycję problemu optymalizacji i przyspieszamy zbieżność stochastycznego spadku gradientu. Nasza reparametryzacja jest inspirowana normalizacją wsadową, ale nie wprowadza żadnych zależności między przykładami w minibatch. Oznacza to, że nasza metoda może być również pomyślnie stosowana do cyklicznych modeli, takich jak LSTMs i aplikacji wrażliwych na szum, takich jak uczenie głębokie wzmocnienie lub modele generowania, dla których normalizacja wsadowa jest mniej odpowiednia. Mimo że nasza metoda jest znacznie prostsza, nadal zapewnia większą szybkość pełnej normalizacji wsadowej. Ponadto obciążenie obliczeniowe naszej metody jest niższe, co pozwala na wykonanie większej liczby kroków optymalizacji w tym samym czasie. Przedstawiamy użyteczność naszej metody w aplikacjach w nadzorowanym rozpoznawaniu obrazów, modelowaniu generowania i uczeniu głębokiego wzmacniania.
Chcesz przesłać opinię? Prześlij problem tutaj.