Regresja wzmocnionego drzewa decyzyjnego

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy model regresji przy użyciu algorytmu boosted decision tree

Kategoria: Machine Learning / Inicjowanie modelu / Regresja

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano, jak za pomocą modułu Boosted Decision Tree Regression (Regresja drzewa decyzyjnego) w programie Machine Learning Studio (model klasyczny) utworzyć zespołów drzew regresji przy użyciu zwiększania. Zwiększenie oznacza, że każde drzewo jest zależne od poprzednich drzew. Algorytm uczy się przez dopasowanie reszt drzew, które go poprzedzały. W związku z tym zwiększenie wydajności w grupach drzew decyzyjnych zwykle zwiększa dokładność przy niewielkim ryzyku mniejszego pokrycia.

Ta metoda regresji jest metodą uczenia nadzorowanego i dlatego wymaga zestawu danych z etykietami. Kolumna etykiety musi zawierać wartości liczbowe.

Uwaga

Tego modułu należy używać tylko z zestawami danych, które używają zmiennych liczbowych.

Po zdefiniowanym modelu wytrenuj go przy użyciu modułów Train Model (Trenowanie modelu ) lub Tune Model Hyperparameters (Dostrajanie modelu) hiperparametrów .

Porada

Chcesz dowiedzieć się więcej o drzewach, które zostały utworzone? Po wytrenowania modelu kliknij prawym przyciskiem myszy dane wyjściowe modułu Train Model (Trenowanie modelu) (lub modułu Tune Model Hyperparameters (Dostrajanie hiperparametrów modelu) i wybierz pozycję Visualize (Wizualizacja), aby wyświetlić drzewo, które zostało utworzone podczas każdej iteracji. Możesz przejść do szczegółów podziałów dla każdego drzewa i wyświetlić reguły dla każdego węzła.

Więcej informacji na temat drzew regresji wzmacnianych

Wzmacnianie jest jedną z kilku klasycznych metod tworzenia modeli zespołów, z baggingiem, lasami losowymi itd. W Machine Learning Studio (klasycznej) wzmacniane drzewa decyzyjne używają wydajnej implementacji algorytmu zwiększania gradientu MART. Zwiększanie gradientu to technika uczenia maszynowego w przypadku problemów z regresją. Każde drzewo regresji jest kompilowane krokowo przy użyciu wstępnie zdefiniowanej funkcji straty, która mierzy błąd w każdym kroku i poprawia go w następnym kroku. W związku z tym model przewidywania jest tak naprawdę zestawem słabszych modeli przewidywania.

W przypadku problemów z regresją promowanie tworzy serię drzew w sposób krokowy, a następnie wybiera optymalne drzewo przy użyciu dowolnej funkcji utraty, która może być inna.

Aby uzyskać dodatkowe informacje, zobacz następujące artykuły:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Ten artykuł w Wikipedii na temat zwiększania gradientu zawiera pewne informacje na temat drzew wzmacnianych.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: From RankNet to LambdaRank to LambdaMART: An Overview (Od rankNet do lambdaRank do lambdaMART: omówienie). By J.C. Burges.

Metoda zwiększania gradientu może być również używana w przypadku problemów klasyfikacji przez zmniejszenie ich do regresji z odpowiednią funkcją utraty. Aby uzyskać więcej informacji na temat implementacji drzew wzmacnianych dla zadań klasyfikacji, zobacz Two-Class Boosted Decision Tree (Dwuklasowe, wzmacniane drzewo decyzyjne).

How to configure Boosted Decision Tree Regression

Dodaj moduł Boosted Decision Tree (Wzmacniane drzewo decyzyjne ) do eksperymentu. Ten moduł można znaleźć w obszarze Machine Learning, Initialize (Inicjowanie) w kategorii Regression (Regresja).
Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb szkoleniowy .
- Pojedynczy parametr: wybierz tę opcję, jeśli wiesz, jak chcesz skonfigurować model, i podaj określony zestaw wartości jako argumenty.
- Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić czyszczenie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują po wszystkich możliwych kombinacjach podanych ustawień, aby określić hiperparametry, które dają optymalne wyniki.
Maksymalna liczba liści na drzewo: wskazuje maksymalną liczbę węzłów końcowych (liści), które można utworzyć w dowolnym drzewie.

Zwiększając tę wartość, możesz potencjalnie zwiększyć rozmiar drzewa i uzyskać lepszą precyzję, na ryzyko przesłożenia i dłuższego czasu trenowania.
Minimalna liczba próbek na węzeł liścia: wskazuje minimalną liczbę przypadków wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład jeśli wartość domyślna to 1, nawet pojedynczy przypadek może spowodować, że zostanie utworzona nowa reguła. W przypadku zwiększenia wartości do 5 dane szkoleniowe muszą zawierać co najmniej 5 przypadków, które spełniają te same warunki.
Edukacja: wpisz liczbę z zakresów od 0 do 1, która definiuje rozmiar kroku podczas nauki. Tempo nauki określa, jak szybko lub wolno uczący się zbiega się w optymalnym rozwiązaniu. Jeśli rozmiar kroku jest zbyt duży, może to spowodować przekroczenie optymalnego rozwiązania. Jeśli rozmiar kroku jest zbyt mały, zbieżność trenowania z najlepszym rozwiązaniem trwa dłużej.
Liczba skonstruowanych drzew: wskazuje łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wydłuża się.

Ta wartość kontroluje również liczbę drzew wyświetlanych podczas wizualizowania wytrenowany model. Jeśli chcesz wyświetlić lub wydrukować drzewo klucza, możesz ustawić wartość na 1; Oznacza to jednak, że jest tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracje.
Iniekt liczb losowych: wpisz opcjonalną nieujemną liczbę całkowitą do użycia jako wartość iniekcyjną losową. Określenie iniekcyjności zapewnia odtwarzalność między przebiegami, które mają te same dane i parametry.

Domyślnie losowy inicjalizowany jest ustawiony na 0, co oznacza, że początkowa wartość inicju jest uzyskiwana z zegara systemowego.
Zezwalaj na nieznane poziomy kategorii: wybierz tę opcję, aby utworzyć grupę dla nieznanych wartości w zestawach trenowania i walidacji. W przypadku zaznaczenia tej opcji model może akceptować tylko wartości zawarte w danych szkoleniowych. Model może być mniej dokładny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.
Dodaj zestaw danych szkoleniowych i jeden z modułów szkoleniowych:
- Jeśli ustawisz opcję Utwórz tryb szkoleniowy na wartość Pojedynczy parametr, użyj modułu Train Model (Trenowanie modelu).
- Jeśli ustawisz dla ustawienia Utwórz tryb szkoleniowy wartość Zakres parametrów, użyj modułu Hiperparametry modelu dostrajania.
Uwaga

W przypadku przekazania zakresu parametrów do funkcji Train Model jest używana tylko pierwsza wartość z listy zakresów parametrów.

Jeśli przekażemy pojedynczy zestaw wartości parametrów do modułu Dostrajanie hiperparametrów modelu, jeśli oczekuje on zakresu ustawień dla każdego parametru, zignoruje wartości i użyje wartości domyślnych dla uczących się.

Jeśli wybierzesz opcję Zakres parametrów i wpiszesz pojedynczą wartość dowolnego parametru, ta pojedyncza wartość będzie używana podczas całego czyszczenie, nawet jeśli inne parametry zmienią się w zakresie wartości.
Uruchom eksperyment.

Wyniki

Po zakończeniu trenowania:

Aby wyświetlić drzewo, które zostało utworzone w każdej iteracji, kliknij prawym przyciskiem myszy moduł Train Model (Trenowanie modelu) i wybierz pozycję Trained model to visualize (Wytrenowany model do wizualizacji). Jeśli używasz hiperparametrów modelu dostrajania, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Wytrenowany najlepszy model , aby zwizualizować najlepszy model.

Kliknij każde drzewo, aby przejść do szczegółów podziałów i wyświetlić reguły dla każdego węzła.
Aby użyć modelu do oceniania, połącz go z modelem Score Model (Ocena modelu) w celu przewidywania wartości dla nowych przykładów wejściowych.
Aby zapisać migawkę wytrenowany model, kliknij prawym przyciskiem myszy dane wyjściowe Trained model (Wytrenowany model) modułu szkoleniowego i wybierz pozycję Save As (Zapisz jako). Zapisywana kopia wytrenego modelu nie jest aktualizowana w kolejnych przebiegach eksperymentu.

Przykłady

Przykłady sposobu, w jaki wzmacniane drzewa są używane w uczeniu maszynowym, można znaleźć w Azure AI Gallery:

Szacowanie popytu: używa regresji drzewa decyzyjnego ze wzmocnioną wydajnością, aby przewidzieć liczbę wypożyczeń w określonym czasie.
Analiza tonacji w serwisie Twitter: używa regresji do wygenerowania przewidywanej oceny.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Porada

Ogólnie rzecz biorąc, drzewa decyzyjne dają lepsze wyniki, gdy cechy są nieco powiązane. Jeśli cechy mają duży stopień entropii (czyli nie są powiązane), współdzielą one niewiele informacji wspólnych lub nie mają żadnych informacji, a uporządkowanie ich w drzewie nie da wielu predykcyjnych korzyści.

Szczegóły implementacji

Zespół drzew jest wytwarzanych przez obliczanie, na każdym kroku, drzewa regresji, które przybliżony gradient funkcji straty i dodanie go do poprzedniego drzewa z współczynnikami, które minimalizują utratę nowego drzewa. Dane wyjściowe zespołu wytwarzanych przez zespół MART w danym wystąpieniu to suma danych wyjściowych drzewa.

W przypadku problemu klasyfikacji binarnej dane wyjściowe są konwertowane na prawdopodobieństwo przy użyciu pewnego rodzaju odmów.
W przypadku problemów z regresją dane wyjściowe są przewidywaną wartością funkcji.
W przypadku problemów klasyfikacji wystąpienia są uporządkowane według wartości wyjściowej zespołu.

Parametry modułu

Nazwa	Zakres	Typ	Domyślny	Opis
Maksymalna liczba liści na drzewo	>= 1	Liczba całkowita	20	Określ maksymalną liczbę liści na drzewo
Minimalna liczba próbek na węzeł liścia	>= 1	Liczba całkowita	10	Określ minimalną liczbę przypadków wymaganych do formularza węzła liścia
Tempo nauki	[double. Epsilon;1.0]	Float	0,2	Określanie początkowego kursu nauki
Całkowita liczba skonstruowanych drzew	>= 1	Liczba całkowita	100	Określ maksymalną liczbę drzew, które można utworzyć podczas trenowania
Iniekt liczb losowych	dowolny	Liczba całkowita		Podaj iniekt dla generatora liczb losowych używanego przez model. Pozostaw wartość domyślną jako pustą.
Zezwalaj na nieznane poziomy kategorii	dowolny	Wartość logiczna	true	W przypadku wartości true utwórz dodatkowy poziom dla każdej kolumny kategorii. Poziomy w testowym zestawie danych niedostępne w zestawie danych treningowych są mapowane na ten dodatkowy poziom.

Dane wyjściowe

Nazwa	Typ	Opis
Nie wytrenowany model	ILearner, interfejs	Nieprzeszkolony model regresji

Zobacz też

Lista modułów A–Z
Regresja

Last updated on 2019-05-06

Udostępnij za pomocą