Składnik regresji lasu decyzyjnego

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model regresji na podstawie zespołu drzew decyzyjnych.

Po skonfigurowaniu modelu należy wytrenować model przy użyciu oznaczonego zestawu danych i składnika Train Model . Wytrenowany model może następnie służyć do przewidywania.

Jak to działa

Drzewa decyzyjne to nieparatyczne modele, które wykonują sekwencję prostych testów dla każdego wystąpienia, przechodząc przez strukturę danych drzewa binarnego do momentu osiągnięcia węzła liścia (decyzji).

Drzewa decyzyjne mają następujące zalety:

  • Są one wydajne zarówno w obliczeniach, jak i w przypadku użycia pamięci podczas trenowania i przewidywania.

  • Mogą one reprezentować nieliniowe granice decyzyjne.

  • Wykonują one zintegrowane wybieranie i klasyfikację funkcji i są odporne na obecność hałaśliwych funkcji.

Ten model regresji składa się z zespołu drzew decyzyjnych. Każde drzewo w lesie decyzyjnym regresji generuje rozkład Gaussian jako przewidywanie. Agregacja jest wykonywana przez zespół drzew w celu znalezienia rozkładu Gaussa najbliższego połączonemu rozkładowi dla wszystkich drzew w modelu.

Aby uzyskać więcej informacji na temat struktury teoretycznej dla tego algorytmu i jego implementacji, zobacz ten artykuł: Lasy decyzyjne: Ujednolicona struktura klasyfikacji, regresja, szacowanie gęstości, uczenie się podfolderem i uczenie Semi-Supervised

Jak skonfigurować model regresji lasu decyzyjnego

  1. Dodaj składnik Regresja lasu decyzyjnego do potoku. Składnik można znaleźć w projektancie w obszarze Uczenie maszynowe, Inicjowanie modelu i Regresja.

  2. Otwórz właściwości składnika i dla metody Resampling wybierz metodę użytą do utworzenia poszczególnych drzew. Możesz wybrać opcję Bagging lub Replikuj.

    • Bagging: Bagging jest również nazywany agregowaniem bootstrap. Każde drzewo w lesie decyzyjnym regresji generuje rozkład Gaussian w drodze przewidywania. Agregacja polega na znalezieniu Gaussian, którego pierwsze dwa momenty są zgodne z momentami mieszaniny rozkładów Gaussian podanych przez połączenie wszystkich rozkładów zwróconych przez poszczególne drzewa.

      Aby uzyskać więcej informacji, zobacz wpis w Wikipedii dotyczący agregowania bootstrap.

    • Replikowanie: w replikacji każde drzewo jest trenowane na dokładnie tych samych danych wejściowych. Określenie, którego predykatu podzielonego jest używane dla każdego węzła drzewa, pozostaje losowe, a drzewa będą zróżnicowane.

      Aby uzyskać więcej informacji na temat procesu trenowania z opcją Replikuj, zobacz Lasy decyzyjne dla przetwarzanie obrazów i Analiza obrazów medycznych. Criminisi i J. Shotton. Springer 2013..

  3. Określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .

    • Pojedynczy parametr

      Jeśli wiesz, jak skonfigurować model, możesz podać określony zestaw wartości jako argumenty. Te wartości mogły zostać poznane przez eksperymentowanie lub odebrane jako wskazówki.

    • Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują wszystkie możliwe kombinacje podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.

  4. W polu Liczba drzew decyzyjnych wskaż łączną liczbę drzew decyzyjnych do utworzenia w zespole. Tworząc więcej drzew decyzyjnych, możesz potencjalnie uzyskać lepszy zasięg, ale czas szkolenia wzrośnie.

    Porada

    Jeśli ustawisz wartość na 1; oznacza to jednak, że zostanie wygenerowane tylko jedno drzewo (drzewo z początkowym zestawem parametrów) i nie zostaną wykonane żadne dalsze iteracji.

  5. W polu Maksymalna głębokość drzew decyzyjnych wpisz liczbę, aby ograniczyć maksymalną głębokość dowolnego drzewa decyzyjnego. Zwiększenie głębokości drzewa może zwiększyć precyzję, na ryzyko nadmiernego dopasowania i zwiększonego czasu trenowania.

  6. W polu Liczba losowych podziałów na węzeł wpisz liczbę podziałów do użycia podczas tworzenia każdego węzła drzewa. Podział oznacza, że funkcje na każdym poziomie drzewa (węzła) są losowo podzielone.

  7. W polu Minimalna liczba próbek na węzeł liścia wskaż minimalną liczbę przypadków, które są wymagane do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

    Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej pięć przypadków spełniających te same warunki.

  8. Trenowanie modelu:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model .

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów tune model.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    Jeśli przekazujesz jeden zestaw wartości parametrów do składnika Hiperparametry modelu dostrajania , gdy oczekuje on zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, ta określona wartość jest używana w całym zamiataniu, nawet jeśli inne parametry zmieniają się w zakresie wartości.

  9. Prześlij potok.

Wyniki

Po zakończeniu trenowania:

  • Aby zapisać migawkę wytrenowanego modelu, wybierz składnik trenowania, a następnie przejdź na kartę Dane wyjściowe w prawym panelu. Kliknij ikonę Zarejestruj model. Zapisany model można znaleźć jako składnik w drzewie składników.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.