Wieloklasowy składnik lasu decyzyjnego

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model uczenia maszynowego na podstawie algorytmu lasu decyzyjnego . Las decyzyjny to model zespołu, który szybko tworzy serię drzew decyzyjnych, a jednocześnie uczy się na podstawie oznakowanych danych.

Więcej informacji o lasach decyzyjnych

Algorytm lasu decyzyjnego to metoda uczenia zespołowego do klasyfikacji. Algorytm działa, tworząc wiele drzew decyzyjnych, a następnie głosując na najpopularniejszą klasę danych wyjściowych. Głosowanie jest formą agregacji, w której każde drzewo w lesie decyzyjnym klasyfikacji generuje histogram nienormalizowanej częstotliwości etykiet. Proces agregacji sumuje te histogramy i normalizuje wynik, aby uzyskać "prawdopodobieństwa" dla każdej etykiety. Drzewa, które mają wysoką pewność przewidywania, mają większą wagę w ostatecznej decyzji zespołu.

Drzewa decyzyjne są ogólnie nieparametryczne, co oznacza, że obsługują dane z różnymi rozkładami. W każdym drzewie sekwencja prostych testów jest uruchamiana dla każdej klasy, zwiększając poziomy struktury drzewa do momentu osiągnięcia węzła liścia (decyzji).

Drzewa decyzyjne mają wiele zalet:

  • Mogą one reprezentować nieliniowe granice decyzyjne.
  • Są one wydajne w obliczeniach i użyciu pamięci podczas trenowania i przewidywania.
  • Wykonują one zintegrowane wybieranie i klasyfikację funkcji.
  • Są odporne na obecność hałaśliwych funkcji.

Klasyfikator lasu decyzyjnego w usłudze Azure Machine Learning składa się z zespołu drzew decyzyjnych. Ogólnie rzecz biorąc, modele zespołów zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne. Aby uzyskać więcej informacji, zobacz Drzewa decyzyjne.

Jak skonfigurować wieloklasowy las decyzyjny

  1. Dodaj składnik Multiclass Decision Forest do potoku w projektancie. Ten składnik można znaleźć w obszarze Machine Learning, Initialize Model (Inicjowanie modelu) i Classification (Klasyfikacja).

  2. Kliknij dwukrotnie składnik, aby otworzyć okienko Właściwości .

  3. W obszarze Metoda ponownego próbkowania wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać opcję baggowania lub replikacji.

    • Bagging: Bagging jest również nazywany agregowaniem bootstrap. W tej metodzie każde drzewo jest uprawiane na nowej próbce, tworzone losowo przez próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony zestaw danych o rozmiarze oryginału. Dane wyjściowe modeli są łączone przez głosowanie, co jest formą agregacji. Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregowania bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, którego predykat podziału jest używany dla każdego węzła drzewa, pozostaje losowy, tworząc zróżnicowane drzewa.

  4. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr: wybierz tę opcję, jeśli wiesz, jak skonfigurować model i podaj zestaw wartości jako argumenty.

    • Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują wszystkie możliwe kombinacje podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.

  5. Liczba drzew decyzyjnych: wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepszy zasięg, ale czas trenowania może wzrosnąć.

    Jeśli ustawisz wartość na 1; oznacza to jednak, że można wygenerować tylko jedno drzewo (drzewo z początkowym zestawem parametrów), a dalsze iteracji nie są wykonywane.

  6. Maksymalna głębokość drzew decyzyjnych: wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  7. Liczba losowych podziałów na węzeł: wpisz liczbę podziałów do użycia podczas kompilowania każdego węzła drzewa. Podział oznacza, że funkcje na każdym poziomie drzewa (węzła) są losowo podzielone.

  8. Minimalna liczba próbek na węzeł liścia: określ minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie. Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł.

    Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  9. Połącz oznaczony zestaw danych i wytrenuj model:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model .

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów tune model.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    Jeśli przekazujesz jeden zestaw wartości parametrów do składnika Hiperparametry modelu dostrajania , gdy oczekuje on zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, ta określona wartość jest używana w całym zamiataniu, nawet jeśli inne parametry zmieniają się w zakresie wartości.

  10. Prześlij potok.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.