Wybieranie parametrów w celu zoptymalizowania algorytmów w usłudze Machine Learning Studio (wersja klasyczna)

DOTYCZY: Dotyczy. Machine Learning Studio (wersja klasyczna) Nie dotyczy. Azure Machine Learning

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z usługi ML Studio (klasycznej) do usługi Azure Machine Learning.
Dowiedz się więcej o usłudze Azure Machine Learning

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym temacie opisano sposób wybierania odpowiedniego zestawu hiperparametrów dla algorytmu w usłudze Machine Learning Studio (wersja klasyczna). Większość algorytmów uczenia maszynowego ma parametry do ustawienia. Podczas trenowania modelu należy podać wartości dla tych parametrów. Skuteczność wytrenowanego modelu zależy od wybieranych parametrów modelu. Proces znajdowania optymalnego zestawu parametrów jest określany jako wybór modelu.

Istnieją różne sposoby wyboru modelu. W uczeniu maszynowym krzyżowe sprawdzanie poprawności jest jedną z najczęściej używanych metod wyboru modelu i jest to domyślny mechanizm wyboru modelu w usłudze Machine Learning Studio (wersja klasyczna). Ponieważ usługa Machine Learning Studio (klasyczna) obsługuje języki R i Python, zawsze można zaimplementować własne mechanizmy wyboru modelu przy użyciu języka R lub Python.

W procesie znajdowania najlepszego zestawu parametrów znajdują się cztery kroki:

Zdefiniuj przestrzeń parametrów: dla algorytmu najpierw określ dokładne wartości parametrów, które chcesz wziąć pod uwagę.
Zdefiniuj ustawienia krzyżowego sprawdzania poprawności: zdecyduj, jak wybrać fałdy krzyżowe dla zestawu danych.
Zdefiniuj metrykę: zdecyduj, jaka metryka ma być używana, aby określić najlepszy zestaw parametrów, takich jak dokładność, błąd średniokwadratowy, precyzja, czułość lub miara F.
Trenowanie, ocenianie i porównywanie: Dla każdej unikatowej kombinacji wartości parametrów przeprowadzana jest krzyżowa walidacja na podstawie zdefiniowanej metryki błędu. Po przeprowadzeniu oceny i porównania można wybrać model o najlepszej wydajności.

Na poniższej ilustracji pokazano, jak można to osiągnąć w usłudze Machine Learning Studio (wersja klasyczna).

Znajdowanie najlepszego zestawu parametrów

Definiowanie przestrzeni parametrów

Zestaw parametrów można zdefiniować w kroku inicjowania modelu. Okienko parametrów wszystkich algorytmów uczenia maszynowego ma dwa tryby trenera: Pojedynczy parametr i Zakres parametrów. Wybierz tryb zakresu parametrów. W trybie Zakres parametrów można wprowadzić wiele wartości dla każdego parametru. W polu tekstowym można wprowadzić wartości rozdzielane przecinkami.

Dwuklasowe wzmocnione drzewo decyzyjne, pojedynczy parametr

Alternatywnie można zdefiniować maksymalną i minimalną liczbę punktów siatki oraz łączną liczbę punktów do wygenerowania za pomocą narzędzia Use Range Builder. Domyślnie wartości parametrów są generowane w skali liniowej. Jednak jeśli skala logarytmiczna jest zaznaczona, wartości są generowane w skali logarytmicznej (to znaczy, stosunek sąsiednich punktów jest stały zamiast ich różnicy). W przypadku parametrów liczb całkowitych można zdefiniować zakres przy użyciu łącznika. Na przykład "1–10" oznacza, że wszystkie liczby całkowite z zakresu od 1 do 10 (włącznie) tworzą zestaw parametrów. Obsługiwany jest również tryb mieszany. Na przykład zestaw parametrów "1–10, 20, 50" będzie zawierać liczby całkowite 1–10, 20 i 50.

Drzewo decyzyjne z dwoma klasami, zakres wzmocnionych parametrów

Definiowanie fałdów krzyżowych walidacji

Moduł Partition and Sample może być używany do losowego przypisywania fałdów do danych. W poniższej przykładowej konfiguracji modułu zdefiniujemy pięć części i losowo przypiszemy numer części instancjom próbek.

Partycjonowanie i próbkowanie

Definiowanie metryki

Moduł Dostrajanie hiperparametrów modelu umożliwia empiryczne wybieranie najlepszego zestawu parametrów dla danego algorytmu i zestawu danych. Oprócz innych informacji dotyczących trenowania modelu okienko Właściwości tego modułu zawiera metryki służące do określania najlepszego zestawu parametrów. Ma dwa różne pola listy rozwijanej dla algorytmów klasyfikacji i regresji, odpowiednio. Jeśli rozważany algorytm jest algorytmem klasyfikacji, metryka regresji jest ignorowana i odwrotnie. W tym konkretnym przykładzie metryka to Dokładność.

Parametry zamiatania

Trenowanie, ocenianie i porównywanie

Ten sam moduł Tune Model Hyperparameters trenuje wszystkie modele, które odpowiadają zestawowi parametrów, ocenia różne metryki, a następnie tworzy najlepiej wytrenowany model na podstawie wybranej metryki. Ten moduł zawiera dwa obowiązkowe dane wejściowe:

Niewyszkolony uczeń
Zestaw danych

Moduł zawiera również opcjonalne dane wejściowe. Połącz zestaw danych z złożonymi informacjami z obowiązkowymi danymi wejściowymi zestawu danych. Jeśli zestaw danych nie ma przypisanych żadnych złożonych informacji, 10-krotne krzyżowe sprawdzanie poprawności jest domyślnie wykonywane automatycznie. Jeśli przydział fałd nie zostanie wykonany i zestaw danych weryfikacyjnych zostanie udostępniony na opcjonalnym porcie zestawu danych, zostanie wybrany tryb trenowania i testowania, a pierwszy zestaw danych będzie użyty do trenowania modelu dla każdej kombinacji parametrów.

Zwiększenie klasyfikatora drzewa decyzyjnego

Następnie model jest oceniany na zestawie danych walidacyjnych. Lewy port wyjściowy modułu przedstawia różne metryki jako funkcje wartości parametrów. Właściwy port wyjściowy udostępnia wytrenowany model odpowiadający modelowi o najlepszej wydajności zgodnie z wybraną metryą (dokładność w tym przypadku).

Zestaw danych weryfikacji

Możesz zobaczyć dokładne parametry wybrane przez wizualizację odpowiedniego portu wyjściowego. Ten model może być używany w ocenianiu zestawu testowego lub w wdrożonej usłudze internetowej po zapisaniu jako wytrenowany model.

Last updated on 2017-11-29

Wybieranie parametrów w celu zoptymalizowania algorytmów w usłudze Machine Learning Studio (wersja klasyczna)

Definiowanie przestrzeni parametrów

Definiowanie fałdów krzyżowych walidacji

Definiowanie metryki

Trenowanie, ocenianie i porównywanie

Dodatkowe zasoby