składnik lasu decyzyjnego Two-Class

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Ten składnik umożliwia utworzenie modelu uczenia maszynowego na podstawie algorytmu lasów decyzyjnych.

Lasy decyzyjne są szybkimi, nadzorowanymi modelami grupowymi. Ten składnik jest dobrym wyborem, jeśli chcesz przewidzieć cel z maksymalnie dwoma wynikami.

Opis lasów decyzyjnych

Ten algorytm lasu decyzyjnego to metoda uczenia zespołowego przeznaczona do zadań klasyfikacji. Metody grupowe są oparte na zasadzie ogólnej, która zamiast polegać na jednym modelu, można uzyskać lepsze wyniki i bardziej uogólniony model, tworząc wiele powiązanych modeli i łącząc je w jakiś sposób. Ogólnie rzecz biorąc, modele grupowe zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne.

Istnieje wiele sposobów tworzenia poszczególnych modeli i łączenia ich w zestawie. Ta konkretna implementacja lasu decyzyjnego działa, tworząc wiele drzew decyzyjnych, a następnie głosując na najpopularniejszą klasę wyjściową. Głosowanie jest jedną z lepiej znanych metod generowania wyników w modelu zespołowym.

  • Wiele pojedynczych drzew klasyfikacji jest tworzonych przy użyciu całego zestawu danych, ale różne (zwykle losowe) punkty początkowe. Różni się to od podejścia lasu losowego, w którym poszczególne drzewa decyzyjne mogą używać tylko losowej części danych lub cech.
  • Każde drzewo w drzewie lasu decyzyjnego generuje histogram nienormalizowanej częstotliwości etykiet.
  • Proces agregacji sumuje te histogramy i normalizuje wynik w celu uzyskania "prawdopodobieństwa" dla każdej etykiety.
  • Drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

Drzewa decyzyjne w ogóle mają wiele zalet dla zadań klasyfikacji:

  • Mogą przechwytywać nieliniowe granice decyzyjne.
  • Można trenować i przewidywać na dużą ilość danych, ponieważ są one wydajne w obliczeniach i użyciu pamięci.
  • Wybór funkcji jest zintegrowany z procesami trenowania i klasyfikacji.
  • Drzewa mogą pomieścić hałaśliwych danych i wiele funkcji.
  • Są to modele nieparametryczne, co oznacza, że mogą obsługiwać dane z różnymi rozkładami.

Jednak proste drzewa decyzyjne mogą nadmiernie dopasować się do danych i są mniej uogólnialne niż zespoły drzew.

Aby uzyskać więcej informacji, zobacz Lasy decyzyjne.

Sposób konfigurowania

  1. Dodaj do potoku składnik Dwuklasowy las decyzyjny w usłudze Azure Machine Learning i otwórz okienko Właściwości składnika.

    Składnik można znaleźć w obszarze Machine Learning. Rozwiń węzeł Inicjuj, a następnie pozycję Klasyfikacja.

  2. W obszarze Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać jedną z opcji Bagging lub Replikuj.

    • Bagging: Bagging jest również nazywany agregowaniem bootstrap. W tej metodzie każde drzewo jest uprawiane na nowej próbce, tworzone przez losowe próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony zestaw danych o rozmiarze oryginału.

      Dane wyjściowe modeli są łączone przez głosowanie, co jest formą agregacji. Każde drzewo w lesie decyzyjnym klasyfikacji generuje nieznormalizowany histogram częstotliwości etykiet. Agregacja polega na zsumowanie tych histogramów i normalizację w celu uzyskania "prawdopodobieństwa" dla każdej etykiety. W ten sposób drzewa, które mają wysoką pewność przewidywania, będą miały większą wagę w ostatecznej decyzji zespołu.

      Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregacji Bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, które predykat podziału jest używany dla każdego węzła drzewa pozostaje losowe, a drzewa będą zróżnicowane.

  3. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty.

    • Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, możesz znaleźć optymalne parametry przy użyciu składnika Hiperparametry modelu dostrajania . Podajesz zakres wartości, a trener iteruje wiele kombinacji ustawień, aby określić kombinację wartości, które dają najlepszy wynik.

  4. W polu Liczba drzew decyzyjnych wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, można potencjalnie uzyskać lepszy zasięg, ale czas szkolenia zwiększa się.

    Uwaga

    Jeśli ustawisz wartość 1. Można jednak wygenerować tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracji.

  5. Aby uzyskać maksymalną głębokość drzew decyzyjnych, wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  6. W polu Minimalna liczba próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalowego (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1 nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  7. Wybierz opcję Zezwalaj na nieznane wartości dla funkcji kategorii , aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub walidacji. Model może być mniej precyzyjny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

    Jeśli usuniesz zaznaczenie tej opcji, model może akceptować tylko wartości zawarte w danych treningowych.

  8. Dołącz oznaczony etykietą zestaw danych i wytrenuj model:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu ).

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    W przypadku przekazania pojedynczego zestawu wartości parametrów do składnika Hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość będzie używana w całym zamiataniu, nawet jeśli inne parametry zmienią się w zakresie wartości.

Wyniki

Po zakończeniu szkolenia:

  • Aby zapisać migawkę wytrenowanego modelu, wybierz kartę Dane wyjściowe w prawym panelu składnika Trenowanie modelu . Wybierz ikonę Zarejestruj zestaw danych , aby zapisać model jako składnik wielokrotnego użytku.

  • Aby użyć modelu do oceniania, dodaj składnik Score Model (Generowanie wyników dla modelu ) do potoku.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.