Dostrajanie hiperparametrów modelu

W tym artykule opisano sposób używania składnika Hiperparametry modelu dostrajania w projektancie usługi Azure Machine Learning. Celem jest określenie optymalnych hiperparametrów dla modelu uczenia maszynowego. Składnik kompiluje i testuje wiele modeli przy użyciu różnych kombinacji ustawień. Porównuje metryki na wszystkich modelach, aby uzyskać kombinacje ustawień.

Parametr terminów i hiperparametr mogą być mylące. Parametry modelu są ustawiane w okienku po prawej stronie składnika. Zasadniczo ten składnik wykonuje zamiatanie parametrów przez określone ustawienia parametrów. Poznaje optymalny zestaw hiperparametrów, który może być inny dla każdego konkretnego drzewa decyzyjnego, zestawu danych lub metody regresji. Proces znajdowania optymalnej konfiguracji jest czasami nazywany dostrajaniem.

Składnik obsługuje następującą metodę znajdowania optymalnych ustawień modelu: zintegrowany pociąg i dostrajanie. W tej metodzie skonfigurujesz zestaw parametrów do użycia. Następnie można umożliwić składnikowi iterowanie wielu kombinacji. Składnik mierzy dokładność, dopóki nie znajdzie "najlepszego" modelu. W przypadku większości składników uczniów można wybrać parametry, które należy zmienić podczas procesu trenowania i które powinny pozostać stałe.

W zależności od tego, jak długo chcesz uruchomić proces dostrajania, możesz zdecydować się na wyczerpujące przetestowanie wszystkich kombinacji. Możesz też skrócić proces, ustanawiając siatkę kombinacji parametrów i testując losowy podzestaw siatki parametrów.

Ta metoda generuje wytrenowany model, który można zapisać do ponownego użycia.

Porada

Możesz wykonać powiązane zadanie. Przed rozpoczęciem dostrajania zastosuj wybór funkcji, aby określić kolumny lub zmienne, które mają najwyższą wartość informacji.

Jak skonfigurować hiperparametry modelu dostrajania

Poznanie optymalnych hiperparametrów dla modelu uczenia maszynowego wymaga znacznego użycia potoków.

Trenowanie modelu przy użyciu zamiatania parametrów

W tej sekcji opisano sposób wykonywania podstawowego zamiatania parametrów, który trenuje model przy użyciu składnika Hiperparametry modelu dostrajania.

  1. Dodaj składnik Hiperparametry modelu dostrajania do potoku w projektancie.

  2. Połącz nietrenowany model z najbardziej lewym wejściem.

    Uwaga

    Dostrajanie hiperparametrów modelu można łączyć tylko z wbudowanymi składnikami algorytmu uczenia maszynowego i nie może obsługiwać dostosowanego modelu wbudowanego w tworzenie modelu języka Python.

  3. Dodaj zestaw danych, którego chcesz użyć do trenowania, i połącz go z środkowym wejściem hiperparametrów modelu tune.

    Opcjonalnie, jeśli masz otagowany zestaw danych, możesz połączyć go z najbardziej odpowiednim portem wejściowym (opcjonalny zestaw danych weryfikacji). Pozwala to zmierzyć dokładność podczas trenowania i dostrajania.

  4. W prawym panelu hiperparametrów dostrajania modelu wybierz wartość trybu zamiatania parametrów. Ta opcja określa sposób wybierania parametrów.

    • Cała siatka: po wybraniu tej opcji składnik zapętla się przez siatkę wstępnie zdefiniowaną przez system, aby wypróbować różne kombinacje i zidentyfikować najlepszego ucznia. Ta opcja jest przydatna, gdy nie wiesz, jakie są najlepsze ustawienia parametrów i chcesz wypróbować wszystkie możliwe kombinacje wartości.

    • Losowe zamiatanie: po wybraniu tej opcji składnik losowo wybierze wartości parametrów dla zakresu zdefiniowanego przez system. Musisz określić maksymalną liczbę przebiegów, które mają być wykonywane przez składnik. Ta opcja jest przydatna, gdy chcesz zwiększyć wydajność modelu przy użyciu wybranej metryki, ale nadal oszczędzaj zasoby obliczeniowe.

  5. W obszarze Kolumna Etykieta otwórz selektor kolumny, aby wybrać kolumnę z pojedynczą etykietą.

  6. Wybierz liczbę przebiegów:

    • Maksymalna liczba przebiegów w losowym zamiataniu: w przypadku wybrania losowego zamiatania można określić, ile razy model powinien być wytrenowany przy użyciu losowej kombinacji wartości parametrów.
  7. W obszarze Ranking wybierz pojedynczą metrykę do użycia do klasyfikowania modeli.

    Po uruchomieniu funkcji zamiatania parametrów składnik oblicza wszystkie odpowiednie metryki dla typu modelu i zwraca je w raporcie Wyników zamiatania . Składnik używa oddzielnych metryk dla modeli regresji i klasyfikacji.

    Jednak wybrana metryka określa sposób klasyfikowania modeli. Tylko najlepszy model, sklasyfikowany przez wybraną metrykę, jest wynikiem wyjściowym wytrenowanego modelu do użycia na potrzeby oceniania.

  8. W polu Losowe inicjowanie wprowadź liczbę całkowitą jako pseudo losowy stan generatora liczb używany do losowego wybierania wartości parametrów dla wstępnie zdefiniowanego zakresu. Ten parametr jest skuteczny tylko wtedy, gdy tryb zamiatania parametrów to Losowe zamiatanie.

  9. Prześlij potok.

Wyniki dostrajania hiperparametrów

Po zakończeniu trenowania:

  • Aby wyświetlić wyniki zamiatania, możesz kliknąć go prawym przyciskiem myszy, a następnie wybrać polecenie Visualize (Wizualizacja) lub kliknąć prawym przyciskiem myszy lewy port wyjściowy składnika, aby zwizualizować.

    Wyniki zamiatania zawierają wszystkie metryki zamiatania parametrów i dokładności, które mają zastosowanie do typu modelu, a metryka wybrana do klasyfikacji określa, który model jest uznawany za "najlepszy".

  • Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Outputs+logs (Dane wyjściowe i dzienniki ) w prawym panelu składnika Train model (Trenowanie składnika modelu ). Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji i porady.

Jak działa zamiatanie parametrów

Podczas konfigurowania zamiatania parametrów należy zdefiniować zakres wyszukiwania. Wyszukiwanie może używać skończonej liczby wybranych losowo parametrów. Może to być wyczerpujące wyszukiwanie w przestrzeni parametrów, którą definiujesz.

  • Losowe zamiatanie: ta opcja szkoli model przy użyciu ustawionej liczby iteracji.

    Należy określić zakres wartości do iterowania, a składnik używa losowo wybranego podzestawu tych wartości. Wartości są wybierane z zamianą, co oznacza, że liczby wcześniej wybrane losowo nie są usuwane z puli dostępnych liczb. Więc prawdopodobieństwo, że dowolna wybrana wartość pozostaje taka sama we wszystkich przebiegach.

  • Cała siatka: opcja użycia całej siatki oznacza, że każda kombinacja jest testowana. Ta opcja jest najbardziej dokładna, ale wymaga najwięcej czasu.

Kontrolowanie długości i złożoności szkolenia

Iterowanie wielu kombinacji ustawień może być czasochłonne, dlatego składnik zapewnia kilka sposobów ograniczenia procesu:

  • Ogranicz liczbę iteracji używanych do testowania modelu.
  • Ogranicz przestrzeń parametrów.
  • Ogranicz zarówno liczbę iteracji, jak i spację parametrów.

Zalecamy potok z ustawieniami, aby określić najbardziej wydajną metodę trenowania na określonym zestawie danych i modelu.

Wybieranie metryki oceny

Po zakończeniu testowania model przedstawia raport zawierający dokładność dla każdego modelu, dzięki czemu można przejrzeć wyniki metryk:

  • Jednolity zestaw metryk jest używany dla wszystkich modeli klasyfikacji binarnej.
  • Dokładność jest używana dla wszystkich modeli klasyfikacji wieloklasowej.
  • Inny zestaw metryk jest używany do modeli regresji.

Jednak podczas trenowania należy wybrać pojedynczą metrykę do użycia w klasyfikacji modeli generowanych podczas procesu dostrajania. Może się okazać, że najlepsza metryka jest różna, w zależności od problemu biznesowego oraz kosztów wyników fałszywie dodatnich i fałszywie ujemnych.

Metryki używane do klasyfikacji binarnej

  • Dokładność jest proporcją rzeczywistych wyników do łącznej liczby przypadków.

  • Precyzja to proporcja wyników rzeczywistych do wyników dodatnich.

  • Kompletność to ułamek wszystkich poprawnych wyników we wszystkich wynikach.

  • Wynik F to miara, która równoważy precyzję i kompletność.

  • AUC to wartość reprezentująca obszar pod krzywą, gdy wyniki fałszywie dodatnie są wykreśline na osi x, a wartości prawdziwie dodatnie są wykreśline na osi y.

  • Średnia utrata dziennika to różnica między dwoma rozkładami prawdopodobieństwa: true i jedną w modelu.

Metryki używane do regresji

  • Średnia bezwzględna wartość błędu określa wszystkie błędy w modelu, gdzie błąd oznacza odległość przewidywanej wartości z wartości true. Jest on często skracany jako MAE.

  • Pierwiastek błędu średniokwadratowego mierzy średnią kwadratów błędów, a następnie przyjmuje element główny tej wartości. Jest on często skracany jako RMSE.

  • Względny błąd bezwzględny reprezentuje błąd jako wartość procentową wartości true.

  • Błąd względny kwadratu normalizuje całkowity błąd kwadratu, dzieląc przez całkowity błąd kwadratu przewidywanych wartości.

  • Współczynnik determinacji to pojedyncza liczba wskazująca, jak dobrze dane pasują do modelu. Wartość jednej oznacza, że model dokładnie odpowiada danym. Wartość zero oznacza, że dane są losowe lub w przeciwnym razie nie mogą być dopasowane do modelu. Często nazywa się r2, R2 lub r-squared.

Składniki, które nie obsługują zamiatania parametrów

Prawie wszystkie osoby uczące się w usłudze Azure Machine Learning obsługują krzyżową walidację ze zintegrowanym zamiataniem parametrów, dzięki czemu można wybrać parametry do potoku. Jeśli osoba ucząca się nie obsługuje ustawiania zakresu wartości, nadal można jej używać w walidacji krzyżowej. W takim przypadku dla zamiatania wybrano zakres dozwolonych wartości.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.