Dwuklasowy las decyzyjny

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy dwuklasowy model klasyfikacji przy użyciu algorytmu lasu decyzyjnego

Kategoria: Machine Learning / Inicjowanie modelu / klasyfikacji

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Two-Class Decision Forest (Dwuklasowy las decyzyjny) w programie Machine Learning Studio (model klasyczny) w celu utworzenia modelu uczenia maszynowego na podstawie algorytmu lasów decyzyjnych.

Lasy decyzyjne to szybkie, nadzorowane modele zespołów. Ten moduł jest dobrym wyborem, jeśli chcesz przewidzieć cel z maksymalnie dwoma wynikami. Jeśli nie masz pewności, jak skonfigurować model drzewa decyzyjnego, aby uzyskać najlepsze wyniki, zalecamy użycie modułu Hiperparametry modelu dostrajania i testowania wielu modeli. Dostrajanie iteruje po wielu możliwościach i znajduje optymalne rozwiązanie dla Ciebie.

Opis lasów decyzyjnych

Ten algorytm lasu decyzyjnego jest zespołów metod uczenia przeznaczonych do zadań klasyfikacji. Metody grupy są oparte na ogólnej zasadzie, że zamiast polegać na pojedynczym modelu, można uzyskać lepsze wyniki i bardziej uogólniony model, tworząc wiele powiązanych modeli i łącząc je w jakiś sposób. Ogólnie rzecz biorąc, modele grupy zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne.

Istnieje wiele sposobów tworzenia poszczególnych modeli i łączenia ich w zespół. Ta implementacja lasu decyzyjnego działa przez zbudowanie wielu drzew decyzyjnych, a następnie głosowanie na najpopularniejszych klasach danych wyjściowych. Głosowanie jest jedną z lepiej znanych metod generowania wyników w modelu zespołowym.

Wiele poszczególnych drzew klasyfikacji jest tworzona przy użyciu całego zestawu danych, ale różne (zazwyczaj losowo) punkty początkowe. Różni się to od podejścia opartego na lesie losowym, w którym poszczególne drzewa decyzyjne mogą używać tylko losowo wybranej części danych lub cech.
Każde drzewo w drzewie lasu decyzyjnego wyprowadza nieznormalizowany histogram częstotliwości etykiet.
Proces agregacji sumuje te histogramy i normalizuje wynik, aby uzyskać "prawdopodobieństwa" dla każdej etykiety.
Drzewa, które mają wysoki poziom pewności przewidywania, będą mieć większą wagę podczas podejmowania ostatecznej decyzji przez zespół.

Drzewa decyzyjne ogólnie mają wiele zalet w przypadku zadań klasyfikacji:

Mogą przechwytywać nieliniowe granice decyzyjne.
Możesz trenować i przewidywać na dużą ilość danych, ponieważ są one wydajne w obliczeniach i użyciu pamięci.
Wybór funkcji jest zintegrowany z procesami trenowania i klasyfikacji.
Drzewa mogą pomieścić zaszumione dane i wiele funkcji.
Są to modele nieparametryczne, co oznacza, że mogą obsługiwać dane ze zróżnicowanymi rozkładami.

Jednak proste drzewa decyzyjne mogą naddopasowyć się do danych i są mniej ogólne niż drzewa z zespołów.

Aby uzyskać więcej informacji, zobacz Lasy decyzyjne lub inne dokumenty wymienione w sekcji Uwagi techniczne.

How to configure Two-Class Decision Forest

Dodaj moduł Two-Class Decision Forest (Dwuklasowy las decyzyjny) do eksperymentu w programie Machine Learning Studio (wersja klasyczna) i otwórz okienko Właściwości modułu.

Moduł można znaleźć w Machine Learning. Rozwiń pozycję Inicjowanie, a następnie pozycję Klasyfikacja.
W przypadku metody Ponowne próbkowanie wybierz metodę używaną do tworzenia poszczególnych drzew. Możesz wybrać opcję Bagging (Bagging) lub Replicate (Replikuj).
- Bagging: Bagging (Bagging) jest również nazywane agregowaniem bootstrap. W tej metodzie każde drzewo jest powiększone na nowej próbce, tworzone przez losowe próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie masz zestawu danych o rozmiarze oryginalnym.
  
  Dane wyjściowe modeli są łączone przez głosowanie, które jest formą agregacji. Każde drzewo w lesie decyzyjnym klasyfikacji wyprowadza histogram etykiet z normalizowaną częstotliwością. Agregacja to zsumowanie tych histogramów i normalizacja w celu uzyskania "prawdopodobieństw" dla każdej etykiety. W ten sposób drzewa o wysokim stopniu pewności przewidywania będą mieć większą wagę w przypadku ostatecznej decyzji zespołu.
  
  Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregowania ładowania początkowego.
- Replikacja: W replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, który predykat podziału jest używany dla każdego węzła drzewa, pozostaje losowe, a drzewa będą zróżnicowane.
  
  Aby uzyskać więcej informacji na temat procesu trenowania za pomocą opcji Replikuj , zobacz dokumenty wymienione w sekcji Uwagi techniczne.
Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb szkoleniowy .
- Pojedynczy parametr: jeśli wiesz, jak chcesz skonfigurować model, możesz podać określony zestaw wartości jako argumenty.
- Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry, określając wiele wartości i korzystając z modułu Hiperparametry modelu dostrajania, aby znaleźć optymalną konfigurację. Instruktor iteruje po wielu kombinacjach podanych ustawień i określa kombinację wartości, która tworzy najlepszy model.
W przypadku wartości Liczba drzew decyzyjnych wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania wydłuża się.

Uwaga

Ta wartość kontroluje również liczbę drzew wyświetlanych podczas wizualizowania wytrenowany model. Jeśli chcesz wyświetlić lub wydrukować pojedyncze drzewo, możesz ustawić wartość na 1. Można jednak utworzyć tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracje.
W celu ograniczenia maksymalnej głębokości drzew decyzyjnych wpisz liczbę, aby ograniczyć maksymalną głębokość każdego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, co może okazać się związane z ryzykiem przesłonienia i zwiększenia czasu trenowania.
W przypadku liczby losowych podziałów na węzeł wpisz liczbę podziałów do użycia podczas tworzenia poszczególnych węzłów drzewa. Podział oznacza , że funkcje na każdym poziomie drzewa (węzła) są losowo dzielone.
W przypadku minimalnej liczby próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład jeśli wartość domyślna to 1, nawet pojedynczy przypadek może spowodować, że zostanie utworzona nowa reguła. W przypadku zwiększenia wartości do 5 dane szkoleniowe muszą zawierać co najmniej 5 przypadków, które spełniają te same warunki.
Wybierz opcję Zezwalaj na nieznane wartości dla funkcji kategorii, aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub walidacji. Model może być mniej dokładny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

W przypadku zaznaczenia tej opcji model może akceptować tylko wartości zawarte w danych szkoleniowych.
Dołącz zestaw danych z etykietą i jeden z modułów szkoleniowych:
- Jeśli ustawisz dla ustawienia Utwórz tryb szkoleniowy wartość Pojedynczy parametr, użyj modułu Train Model (Trenowanie modelu).
- Jeśli ustawisz dla ustawienia Utwórz tryb szkoleniowy wartość Zakres parametrów, użyj hiperparametrów modelu dostrajania.
Uwaga

Jeśli przekażemy zakres parametrów do funkcji Train Model, zostanie użyta tylko pierwsza wartość z listy zakresów parametrów.

Jeśli przekażemy pojedynczy zestaw wartości parametrów do modułu Dostrajanie hiperparametrów modelu, jeśli oczekuje on zakresu ustawień dla każdego parametru, zignoruje wartości i użyje wartości domyślnych dla uczących się.

Jeśli wybierzesz opcję Zakres parametrów i wpiszesz pojedynczą wartość dowolnego parametru, ta pojedyncza wartość będzie używana podczas całego czyszczenie, nawet jeśli inne parametry zmienią się w zakresie wartości.

Wyniki

Po zakończeniu trenowania:

Aby wyświetlić drzewo, które zostało utworzone w każdej iteracji, kliknij prawym przyciskiem myszy moduł Train Model (Trenowanie modelu) i wybierz pozycję Trained model to visualize (Wytrenowany model do wizualizacji). Jeśli używasz hiperparametrów modelu dostrajania, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Wytrenowany najlepszy model , aby zwizualizować najlepszy model.

Kliknij każde drzewo, aby przejść do szczegółów podziałów i wyświetlić reguły dla każdego węzła.
Aby zapisać migawkę modelu, kliknij prawym przyciskiem myszy dane wyjściowe Trained Model (Wytrenowany model), a następnie wybierz pozycję Save Model (Zapisz model). Zapisany model nie jest aktualizowany w kolejnych przebiegach eksperymentu.
Aby użyć modelu do oceniania, dodaj moduł Score Model (Ocena modelu ) do eksperymentu.

Przykłady

Przykłady dotyczące sposobu, w jaki lasy decyzyjne są używane w uczeniu maszynowym, można znaleźć w przykładowych eksperymentach w Azure AI Gallery:

Kategoryzacja wiadomości: porównuje klasyfikator wieloklasowy z modelem zbudowanym przy użyciu algorytmu Two-Class Decision Forest (Dwuklasowy las decyzyjny) z moduł wieloklasowy „jeden przeciw wszystkim”.
Konserwacja predykcyjna: rozszerzony przewodnik, który używa algorytmu dwuklasowego lasu decyzyjnego do przewidywania, czy zasób nie powiedzie się w określonym czasie.

Uwagi techniczne

Ta sekcja zawiera dodatkowe szczegóły implementacji, badania i często zadawane pytania.

Wskazówki dotyczące użycia

Jeśli masz ograniczone dane lub chcesz zminimalizować czas trenowania modelu, wypróbuj następujące ustawienia:

Ograniczony zestaw treningowy

Jeśli zestaw szkoleniowy zawiera ograniczoną liczbę wystąpień:

Utwórz las decyzyjny przy użyciu dużej liczby drzew decyzyjnych (na przykład ponad 20).
Użyj opcji Bagging do ponownego próbkowania.
Określ dużą liczbę losowych podziałów na węzeł (na przykład więcej niż 1000).

Ograniczony czas trenowania

Jeśli zestaw treningowy zawiera dużą liczbę wystąpień, a czas trenowania jest ograniczony:

Utwórz las decyzyjny przy użyciu mniejszej liczby drzew decyzyjnych (na przykład 5–10).
Użyj opcji Replikuj do ponownego próbkowania.
Określ mniejszą liczbę losowych podziałów na węzeł (na przykład mniej niż 100).

Szczegóły implementacji

Ten artykuł firmy Microsoft Research zawiera przydatne informacje o metodach zespołowych, które korzystają z drzew decyzyjnych. Od stumps do drzew do lasów.

Aby uzyskać więcej informacji na temat procesu trenowania z opcją Replikuj, zobacz Decision Forests for przetwarzanie obrazów and Medical Image Analysis (Lasy decyzyjne dla przetwarzanie obrazów Medical Image Analysis). Crimi przeszukini i J. Shotton. Springer 2013.

Parametry modułu

Nazwa	Zakres	Typ	Domyślny	Opis
Ponowne próbkowanie metody	Dowolne	ResamplingMethod	Pakowania	Wybieranie metody ponownego próbkowania
Liczba drzew decyzyjnych	>= 1	Liczba całkowita	8	Określanie liczby drzew decyzyjnych do utworzenia w zespole
Maksymalna głębokość drzew decyzyjnych	>= 1	Liczba całkowita	32	Określ maksymalną głębokość dowolnego drzewa decyzyjnego, które można utworzyć
Liczba losowych podziałów na węzeł	>= 1	Liczba całkowita	128	Określ liczbę podziałów wygenerowanych na węzeł, z których wybrano optymalny podział
Minimalna liczba próbek na węzeł liścia	>= 1	Liczba całkowita	1	Określ minimalną liczbę przykładów szkoleniowych wymaganych do uzyskania węzła liścia
Zezwalaj na nieznane wartości dla cech kategorii	Dowolne	Boolean	Prawda	Wskazanie, czy nieznane wartości istniejących cech kategorii mogą być mapowane na nową, dodatkową funkcję

Dane wyjściowe

Nazwa	Typ	Opis
Nieprzetrenowany model	ILearner, interfejs	Nieprzetrenowany binarny model klasyfikacji

Zobacz też

Klasyfikacja
Regresja lasu decyzyjnego
Wieloklasowy las decyzyjny
Lista modułów A–Z

Udostępnij za pośrednictwem