Udostępnij za pośrednictwem


Wieloklasowy las decyzyjny

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy wieloklasowy model klasyfikacji przy użyciu algorytmu lasu decyzyjnego

Kategoria: Machine Learning/ Inicjowanie modelu/klasyfikacji

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu multiklasowego lasu decyzyjnego w programie Machine Learning Studio (wersja klasyczna) do utworzenia modelu uczenia maszynowego na podstawie algorytmu lasu decyzyjnego. Las decyzyjny to model zespołów, który bardzo szybko tworzy szereg drzew decyzyjnych, ucząc się na danych oznaczonych tagami.

Więcej informacji o lasach decyzyjnych

Algorytm lasu decyzyjnego jest zespołów metody uczenia klasyfikacji. Algorytm działa przez tworzenie wielu drzew decyzyjnych, a następnie głosowanie na najpopularniejszych klasach wyjściowych. Głosowanie jest formą agregacji, w której każde drzewo w lesie decyzyjnym klasyfikacji wyprowadza histogram niewyrównanej częstotliwości etykiet. Proces agregacji sumuje te histogramy i normalizuje wynik, aby uzyskać "prawdopodobieństwa" dla każdej etykiety. Drzewa o wysokim poziomie pewności przewidywania mają większą wagę w końcowej decyzji zespołu.

Drzewa decyzyjne są ogólnie modelami nieparametrycznymi, co oznacza, że obsługują dane o różnych rozkładach. W każdym drzewie jest uruchamiana sekwencja prostych testów dla każdej klasy, zwiększając poziomy struktury drzewa do momentu, gdy zostanie osiągnięty węzeł liścia (decyzja).

Drzewa decyzyjne mają wiele zalet:

  • Mogą reprezentować nieliniowe granice decyzyjne.
  • Są wydajne w obliczeniach i użyciu pamięci podczas trenowania i przewidywania.
  • Wykonują one zintegrowane zaznaczanie i klasyfikację funkcji.
  • Są one odporne w obecności hałaśliwych funkcji.

Klasyfikator lasu decyzyjnego w Machine Learning Studio (klasycznej) składa się z grupy drzew decyzyjnych. Ogólnie rzecz biorąc, modele grupy zapewniają lepsze pokrycie i dokładność niż pojedyncze drzewa decyzyjne. Aby uzyskać więcej informacji, zobacz Drzewa decyzyjne.

Jak skonfigurować wieloklasowy las decyzyjny

Porada

Jeśli nie masz pewności co do najlepszych parametrów, zalecamy użycie modułu Hiperparametry modelu dostrajania i testowania wielu modeli oraz znalezienia optymalnych parametrów.

  1. Dodaj moduł Multiclass Decision Forest (Wieloklasowy las decyzyjny ) do eksperymentu w programie Studio (wersja klasyczna). Ten moduł można znaleźć w Machine Learning,Inicjowanie modelu i Klasyfikacja.

  2. Kliknij dwukrotnie moduł, aby otworzyć okienko Właściwości.

  3. W przypadku metody Próbkowanie wybierz metodę używaną do tworzenia poszczególnych drzew. Można wybrać z bagging lub replikacji.

    • Bagging: Bagging (Bagging) jest również nazywane agregowaniem bootstrap. W tej metodzie każde drzewo jest powiększone na nowej próbce, tworzone przez losowe próbkowanie oryginalnego zestawu danych z zastąpieniem, dopóki nie zostanie utworzony zestaw danych o rozmiarze oryginalnym. Dane wyjściowe modeli są łączone przez głosowanie, które jest formą agregacji. Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregowania bootstrap.

    • Replikacja: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, który predykat podzielony jest używany dla każdego węzła drzewa, pozostaje losowe, tworząc zróżnicowane drzewa.

    Aby uzyskać wskazówki, zobacz sekcję How to Configure a Multiclass Decision Forest Model (Jak skonfigurować wieloklasowy model lasu decyzyjnego).

  4. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb szkoleniowy .

    • Pojedynczy parametr: wybierz tę opcję, jeśli wiesz, jak chcesz skonfigurować model, i podaj zestaw wartości jako argumenty.

    • Zakres parametrów: użyj tej opcji, jeśli nie masz pewności co do najlepszych parametrów i chcesz użyć funkcji czyszczenie parametrów.

  5. Liczba drzew decyzyjnych: wpisz maksymalną liczbę drzew decyzyjnych, które można utworzyć w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepsze pokrycie, ale czas trenowania może się zwiększyć.

    Ta wartość kontroluje również liczbę drzew wyświetlanych w wynikach podczas wizualizowania wytrenowany model. Aby wyświetlić lub wydrukować pojedyncze drzewo, możesz ustawić wartość na 1; Oznacza to jednak, że można utworzyć tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie są wykonywane żadne dalsze iteracje.

  6. Maksymalna głębokość drzew decyzyjnych: wpisz liczbę, aby ograniczyć maksymalną głębokość każdego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, co może okazać się ryzyko wystąpienia pewnego przesłonienia i zwiększonego czasu trenowania.

  7. Liczba losowych podziałów na węzeł: wpisz liczbę podziałów do użycia podczas tworzenia poszczególnych węzłów drzewa. Podział oznacza , że cechy na każdym poziomie drzewa (węzła) są losowo dzielone.

  8. Minimalna liczba próbek na węzeł liścia: wskazuje minimalną liczbę przypadków wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie. Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł.

    Na przykład jeśli wartość domyślna to 1, nawet pojedynczy przypadek może spowodować, że zostanie utworzona nowa reguła. W przypadku zwiększenia wartości do 5 dane szkoleniowe muszą zawierać co najmniej 5 przypadków, które spełniają te same warunki.

  9. Zezwalaj na nieznane wartości dla funkcji kategorii: wybierz tę opcję, aby utworzyć grupę dla nieznanych wartości w zestawach trenowania lub walidacji. Model może być mniej dokładny dla znanych wartości, ale może zapewnić lepsze przewidywania dla nowych (nieznanych) wartości.

    W przypadku zaznaczenia tej opcji model może akceptować tylko wartości, które znajdują się w danych szkoleniowych.

  10. Połączenie zestaw dat z etykietą i jeden z modułów szkoleniowych:

    • Jeśli ustawisz tryb Tworzenia instruktora na wartość Pojedynczy parametr, użyj modułu Train Model (Trenowanie modelu).

    • Jeśli ustawisz opcję Utwórz tryb instruktora na wartość Zakres parametrów, użyj modułu Dostrajanie hiperparametrów modelu. Dzięki tej opcji instruktor może iterować po wielu kombinacjach ustawień i określać wartości parametrów, które dają najlepszy model.

    Uwaga

    Jeśli przekażemy zakres parametrów do funkcji Train Model, będzie używana tylko pierwsza wartość z listy zakresów parametrów.

    Jeśli przekażemy pojedynczy zestaw wartości parametrów do modułu Hiperparametry modelu dostrajania, jeśli oczekuje on zakresu ustawień dla każdego parametru, zignoruje wartości i użyje wartości domyślnych dla uczących się.

    W przypadku wybrania opcji Zakres parametrów i wprowadzenia pojedynczej wartości dla dowolnego parametru określona pojedyncza wartość będzie używana podczas całej czyszczenie, nawet jeśli inne parametry zmienią się w zakresie wartości.

  11. Uruchom eksperyment.

Wyniki

Po zakończeniu szkolenia:

  • Aby wyświetlić drzewo, które zostało utworzone w każdej iteracji, kliknij prawym przyciskiem myszy moduł Train Model (Trenowanie modelu ) i wybierz pozycję Trained model to visualize (Wytrenowany model do wizualizacji). Jeśli używasz hiperparametrów modelu dostrajania, kliknij prawym przyciskiem myszy moduł i wybierz pozycję Wytrenowany najlepszy model , aby zwizualizować najlepszy model. Aby wyświetlić reguły dla każdego węzła, kliknij każde drzewo, aby przejść do szczegółów podziałów.

Przykłady

Aby uzyskać przykłady dotyczące sposobu, w jaki lasy decyzyjne są używane w uczeniu maszynowym, zobacz Azure AI Gallery:

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Szczegóły implementacji

Każde drzewo w lesie decyzyjnym klasyfikacji wyprowadza histogram niewyrównanej częstotliwości etykiet. Agregacja to zsumowanie tych histogramów i normalizacja w celu uzyskania "prawdopodobieństw" dla każdej etykiety. W ten sposób drzewa o wysokim poziomie pewności przewidywania mają większą wagę w końcowej decyzji zespołu.

Aby uzyskać więcej informacji na temat procesu trenowania przy użyciu opcji Replikuj , zobacz:

How to Configure a Multiclass Decision Forest Model

Możesz zmienić sposób konfigurowania modułu w taki sposób, aby uwzględniał scenariusze, takie jak zbyt mała ilość danych lub ograniczony czas trenowania.

Ograniczony czas trenowania

Jeśli zestaw treningowy zawiera dużą liczbę wystąpień, ale czas dostępny do trenowania modelu jest ograniczony, spróbuj użyć tych opcji:

  • Utwórz las decyzyjny, który używa mniejszej liczby drzew decyzyjnych (na przykład 5–10).
  • Użyj opcji Replikuj do ponownego próbkowania.
  • Określ mniejszą liczbę losowych podziałów na węzeł (na przykład mniej niż 100).

Ograniczony zestaw treningowy

Jeśli zestaw treningowy zawiera ograniczoną liczbę wystąpień, spróbuj użyć tych opcji:

  • Utwórz las decyzyjny, który używa dużej liczby drzew decyzyjnych (na przykład ponad 20).
  • Użyj opcji Bagging do ponownego próbkowania.
  • Określ dużą liczbę losowych podziałów na węzeł (na przykład więcej niż 1000).

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Ponowne próbkowanie metody Dowolne ResamplingMethod Pakowania Wybierz metodę ponownego próbkowania: Bagging lub Replicate
Liczba drzew decyzyjnych >= 1 Liczba całkowita 8 Określanie liczby drzew decyzyjnych do utworzenia w zespole
Maksymalna głębokość drzew decyzyjnych >= 1 Liczba całkowita 32 Określ maksymalną głębokość dowolnego drzewa decyzyjnego, które można utworzyć
Liczba losowych podziałów na węzeł >= 1 Liczba całkowita 128 Określ liczbę podziałów wygenerowanych na węzeł, z których wybrano optymalny podział
Minimalna liczba próbek na węzeł liścia >= 1 Liczba całkowita 1 Określ minimalną liczbę przykładów szkoleniowych wymaganych do wygenerowania węzła liścia
Zezwalaj na nieznane wartości dla cech kategorii Dowolne Boolean Prawda Wskazanie, czy nieznane wartości istniejących cech kategorii mogą być mapowane na nową, dodatkową funkcję

Dane wyjściowe

Nazwa Typ Opis
Nieprzetrenowany model ILearner, interfejs Nieprzetrenowany model klasyfikacji wieloklasowej

Zobacz też

Klasyfikacja
Dwuklasowy las decyzyjny
Regresja lasu decyzyjnego
Lista modułów A–Z