Wzmocniony składnik regresji drzewa decyzyjnego
W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.
Użyj tego składnika, aby utworzyć zespół drzew regresji przy użyciu zwiększania. Zwiększenie oznacza, że każde drzewo jest zależne od poprzednich drzew. Algorytm uczy się, dopasowując reszty drzew, które go poprzedzały. W związku z tym zwiększenie w zespole drzewa decyzyjnego ma tendencję do poprawy dokładności z niewielkim ryzykiem mniejszego pokrycia.
Ten składnik jest oparty na algorytmie LightGBM.
Ta metoda regresji jest metodą uczenia nadzorowanego i dlatego wymaga oznaczonego etykietą zestawu danych. Kolumna etykiety musi zawierać wartości liczbowe.
Uwaga
Użyj tego składnika tylko w przypadku zestawów danych, które używają zmiennych liczbowych.
Po zdefiniowaniu modelu wytrenuj go przy użyciu trenowania modelu.
Więcej informacji o wzmocnionych drzewach regresji
Zwiększenie jest jedną z kilku klasycznych metod tworzenia modeli zespołowych, wraz z baggingiem, lasami losowymi itd. W usłudze Azure Machine Learning wzmocnione drzewa decyzyjne wykorzystują wydajną implementację algorytmu zwiększania gradientu MART. Zwiększenie gradientu to technika uczenia maszynowego w przypadku problemów z regresją. Tworzy każde drzewo regresji w sposób krokowy, używając wstępnie zdefiniowanej funkcji utraty w celu zmierzenia błędu w każdym kroku i poprawnego dla niego w następnym kroku. W związku z tym model przewidywania jest w rzeczywistości zespołem słabszych modeli przewidywania.
W przypadku problemów z regresją zwiększenie serii drzew w sposób krokowy, a następnie wybiera optymalne drzewo przy użyciu dowolnej funkcji utraty różnej.
Aby uzyskać dodatkowe informacje, zobacz następujące artykuły:
https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting
Ten artykuł w Wikipedii na temat zwiększania gradientu zapewnia pewne tło na wzmocnionych drzewach.
https://research.microsoft.com/apps/pubs/default.aspx?id=132652
Microsoft Research: From RankNet to LambdaRank to LambdaMART: An Overview (Badania firmy Microsoft: od RankNet do lambdaRank do lambdaMART: omówienie). Autor: J.C. Burges.
Metodę wzmacniania gradientu można również użyć do rozwiązywania problemów klasyfikacji, zmniejszając je do regresji z odpowiednią funkcją utraty. Aby uzyskać więcej informacji na temat wzmocnionej implementacji drzew dla zadań klasyfikacji, zobacz Two-Class Boosted Decision Tree (Dwuklasowe wzmocnione drzewo decyzyjne).
Jak skonfigurować regresję wzmocnionego drzewa decyzyjnego
Dodaj składnik Wzmocnione drzewo decyzyjne do potoku. Ten składnik można znaleźć w obszarze Uczenie maszynowe, Inicjowanie w kategorii Regresja .
Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .
Pojedynczy parametr: wybierz tę opcję, jeśli wiesz, jak skonfigurować model i podaj określony zestaw wartości jako argumenty.
Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują we wszystkich możliwych kombinacjach podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.
Maksymalna liczba liści na drzewo: wskazuje maksymalną liczbę węzłów terminalowych (liści), które można utworzyć w dowolnym drzewie.
Zwiększając tę wartość, potencjalnie zwiększasz rozmiar drzewa i zwiększasz precyzję, ryzykując nadmierne dopasowanie i dłuższy czas trenowania.
Minimalna liczba próbek na węzeł liścia: określ minimalną liczbę przypadków wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie.
Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej 5 przypadków spełniających te same warunki.
Szybkość nauki: wpisz liczbę z zakresu od 0 do 1, która definiuje rozmiar kroku podczas nauki. Szybkość nauki określa szybkość lub spowolnienie zbieżność ucznia z optymalnym rozwiązaniem. Jeśli rozmiar kroku jest zbyt duży, możesz przesłonić optymalne rozwiązanie. Jeśli rozmiar kroku jest za mały, trenowanie trwa dłużej, aby zbiegać się z najlepszym rozwiązaniem.
Liczba skonstruowanych drzew: wskazuje łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wzrasta.
Jeśli ustawisz wartość na 1; jednak generowane jest tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracji.
Inicjator liczb losowych: wpisz opcjonalną nieujemną liczbę całkowitą, która ma być używana jako losowa wartość inicjowania. Określenie inicjatora zapewnia powtarzalność między przebiegami, które mają te same dane i parametry.
Domyślnie losowy inicjator jest ustawiony na 0, co oznacza, że początkowa wartość inicjowania jest uzyskiwana z zegara systemowego.
Trenowanie modelu:
Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).
Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.
Uwaga
Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.
Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.
Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.
Prześlij potok.
Wyniki
Po zakończeniu szkolenia:
Aby użyć modelu do oceniania, połącz polecenie Train Model to Score Model (Trenowanie modelu z generowaniem wyników dla modelu), aby przewidzieć wartości dla nowych przykładów wejściowych.
Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu Trenowany model i kliknij ikonę Zarejestruj zestaw danych . Kopia wytrenowanego modelu zostanie zapisana jako składnik w drzewie składników i nie zostanie zaktualizowana w kolejnych uruchomieniach potoku.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.