Dwuklasowy składnik wzmocnionego drzewa decyzyjnego
W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.
Użyj tego składnika, aby utworzyć model uczenia maszynowego oparty na wzmocnionym algorytmie drzew decyzyjnych.
Wzmocnione drzewo decyzyjne to metoda uczenia zespołowego, w której drugie drzewo poprawia błędy pierwszego drzewa, trzecie drzewo poprawia błędy pierwszych i drugich drzew itd. Przewidywania są oparte na całym zestawie drzew, które tworzą przewidywanie.
Ogólnie rzecz biorąc, w przypadku prawidłowego skonfigurowania wzmocnione drzewa decyzyjne to najprostsze metody, za pomocą których można uzyskać najwyższą wydajność w wielu różnych zadaniach uczenia maszynowego. Jednak są one również jednym z bardziej intensywnie korzystających z pamięci uczniów, a bieżąca implementacja przechowuje wszystko w pamięci. W związku z tym wzmocniony model drzewa decyzyjnego może nie być w stanie przetworzyć dużych zestawów danych, które mogą obsłużyć niektóre liniowe osoby uczące się.
Ten składnik jest oparty na algorytmie LightGBM.
Sposób konfigurowania
Ten składnik tworzy nietrenowany model klasyfikacji. Ponieważ klasyfikacja jest metodą uczenia nadzorowanego, aby wytrenować model, potrzebny jest otagowany zestaw danych zawierający kolumnę etykiety z wartością dla wszystkich wierszy.
Ten typ modelu można wytrenować przy użyciu trenowania modelu.
W usłudze Azure Machine Learning dodaj składnik Wzmocnione drzewo decyzyjne do potoku.
Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .
Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty.
Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry przy użyciu składnika Dostrajanie hiperparametrów modelu. Podajesz pewien zakres wartości, a trener iteruje wiele kombinacji ustawień, aby określić kombinację wartości, które dają najlepszy wynik.
W polu Maksymalna liczba liści na drzewo wskaż maksymalną liczbę węzłów terminalowych (liści), które można utworzyć w dowolnym drzewie.
Zwiększając tę wartość, potencjalnie zwiększasz rozmiar drzewa i zwiększasz precyzję, ryzykując nadmierne dopasowanie i dłuższy czas trenowania.
W polu Minimalna liczba próbek na węzeł liścia wskaż liczbę przypadków wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie.
Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.
W polu Wskaźnik nauki wpisz liczbę z zakresu od 0 do 1, która definiuje rozmiar kroku podczas nauki.
Szybkość nauki określa szybkość lub spowolnienie zbieżność ucznia z optymalnym rozwiązaniem. Jeśli rozmiar kroku jest zbyt duży, możesz przesłonić optymalne rozwiązanie. Jeśli rozmiar kroku jest za mały, trenowanie trwa dłużej, aby zbiegać się z najlepszym rozwiązaniem.
W polu Liczba skonstruowanych drzew wskaż łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wzrośnie.
Jeśli ustawisz wartość na 1, generowane jest tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne kolejne iteracji.
W przypadku inicjatora liczb losowych opcjonalnie wpisz nieujemną liczbę całkowitą, która ma być używana jako losowa wartość inicjowania. Określenie inicjatora zapewnia powtarzalność między przebiegami, które mają te same dane i parametry.
Losowe nasion jest domyślnie ustawione na 0, co oznacza, że początkowa wartość nasion jest uzyskiwana z zegara systemowego. Kolejne przebiegi przy użyciu losowego inicjatora mogą mieć różne wyniki.
Trenowanie modelu:
Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).
Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.
Uwaga
Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.
Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.
Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.
Wyniki
Po zakończeniu szkolenia:
Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu składnika Trenowanie modelu . Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.
Aby użyć modelu do oceniania, dodaj składnik Score Model (Generowanie wyników dla modelu ) do potoku.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.