Szybka regresja kwantylowa lasu decyzyjnego

Artykuł
02/28/2024

W tym artykule opisano moduł w projektancie usługi Azure Machine Edukacja.

Użyj tego składnika, aby utworzyć szybki model regresji kwantylu lasu w potoku. Szybka regresja kwantylu lasu jest przydatna, jeśli chcesz lepiej zrozumieć rozkład przewidywanej wartości, a nie uzyskać pojedynczej średniej wartości przewidywania. Ta metoda ma wiele aplikacji, w tym:

Przewidywanie cen
Szacowanie wyników uczniów lub stosowanie wykresów wzrostu w celu oceny rozwoju dzieci
Odnajdywanie relacji predykcyjnych w przypadkach, gdy istnieje tylko słaba relacja między zmiennymi

Ten algorytm regresji jest metodą uczenia nadzorowanego, co oznacza, że wymaga oznakowanego zestawu danych zawierającego kolumnę etykiety. Ponieważ jest to algorytm regresji, kolumna etykiety musi zawierać tylko wartości liczbowe.

Więcej informacji na temat regresji kwantylu

Istnieje wiele różnych typów regresji. Po prostu regresja oznacza dopasowanie modelu do celu wyrażonego jako wektor liczbowy. Jednak statystycy opracowują coraz bardziej zaawansowane metody regresji.

Najprostszą definicją kwantylu jest wartość, która dzieli zestaw danych na grupy o równym rozmiarze, w związku z czym wartości kwantylu oznaczają granice między grupami. Statystycznie kwantyle są wartościami pobieranymi w regularnych odstępach czasu od odwrotności funkcji rozkładu skumulowanego (CDF) zmiennej losowej.

Podczas gdy modele regresji liniowej próbują przewidzieć wartość zmiennej liczbowej przy użyciu pojedynczego oszacowania, średnia, czasami trzeba przewidzieć zakres lub cały rozkład zmiennej docelowej. W tym celu opracowano techniki, takie jak regresja bayesyjna i regresja kwantylu.

Regresja kwantylu pomaga zrozumieć rozkład przewidywanej wartości. Modele regresji kwantylu oparte na drzewach, takie jak używane w tym składniku, mają dodatkową zaletę, że mogą służyć do przewidywania rozkładów nieparametrycznych.

Jak skonfigurować regresję kwantylu fast forest

Dodaj składnik Fast Forest Quantile Regression do potoku w projektancie. Ten składnik można znaleźć w obszarze Algorytmy Edukacja maszyny w kategorii Regresja.
W okienku po prawej stronie składnika Fast Forest Quantile Regression określ sposób trenowania modelu, ustawiając opcję Utwórz tryb trenera .
- Pojedynczy parametr: jeśli wiesz, jak skonfigurować model, podaj określony zestaw wartości jako argumenty. Podczas trenowania modelu użyj polecenia Train Model (Trenowanie modelu).
- Zakres parametrów: jeśli nie masz pewności co do najlepszych parametrów, wykonaj zamiatanie parametrów przy użyciu składnika Dostrajanie hiperparametrów modelu. Trener iteruje wiele wartości, które określisz, aby znaleźć optymalną konfigurację.
Liczba drzew, wpisz maksymalną liczbę drzew, które można utworzyć w zespole. Jeśli tworzysz więcej drzew, zazwyczaj prowadzi to do większej dokładności, ale kosztem dłuższego czasu trenowania.
Liczba liści, wpisz maksymalną liczbę liści lub węzłów terminalu, które można utworzyć w dowolnym drzewie.
Minimalna liczba wystąpień szkoleniowych wymaganych do utworzenia liścia, określ minimalną liczbę przykładów wymaganych do utworzenia dowolnego węzła terminalu (liścia) w drzewie.

Zwiększając tę wartość, zwiększasz próg tworzenia nowych reguł. Na przykład z wartością domyślną 1, nawet pojedynczy przypadek może spowodować utworzenie nowej reguły. Jeśli zwiększysz wartość do 5, dane szkoleniowe będą musiały zawierać co najmniej 5 przypadków spełniających te same warunki.
Ułamek baggingu określ liczbę z zakresu od 0 do 1, która reprezentuje ułamek próbek do użycia podczas tworzenia każdej grupy kwantyli. Próbki są wybierane losowo z zastąpieniem.
Podziel ułamek, wpisz liczbę z zakresu od 0 do 1, która reprezentuje ułamek funkcji do użycia w każdym podziale drzewa. Używane funkcje są zawsze wybierane losowo.
Kwantyle do oszacowania, wpisz rozdzieloną średnikami listę kwantyli, dla których model ma trenować i tworzyć przewidywania.

Jeśli na przykład chcesz utworzyć model szacowany dla kwartylów, wpisz 0.25; 0.5; 0.75polecenie .
Opcjonalnie wpisz wartość inicjatora liczby losowej, aby zainicjować generator liczb losowych używany przez model. Wartość domyślna to 0, co oznacza, że wybierany jest losowy inicjator.

Jeśli chcesz odtworzyć wyniki między kolejnymi przebiegami na tych samych danych, należy podać wartość.
Połączenie zestaw danych szkoleniowych i nietrenowany model do jednego ze składników szkoleniowych:
- Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, użyj składnika Train Model (Trenowanie modelu).
- Jeśli ustawisz opcję Utwórz tryb trenera na Zakres parametrów, użyj składnika Dostrajanie hiperparametrów modelu.
Ostrzeżenie
- Jeśli przekażesz zakres parametrów do trenowania modelu, użyje tylko pierwszej wartości na liście zakresów parametrów.
- Jeśli przekażesz jeden zestaw wartości parametrów do składnika Dostrajanie hiperparametrów modelu, gdy oczekuje ona zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.
- Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.
Prześlij potok.

Wyniki

Po zakończeniu szkolenia:

Aby zapisać migawkę wytrenowanego modelu, wybierz składnik trenowania, a następnie przejdź do karty Dane wyjściowe i dzienniki w prawym panelu. Kliknij ikonę Zarejestruj zestaw danych. Zapisany model można znaleźć jako składnik w drzewie składników.

Metryki oceny

Możesz użyć składnika Evaluate Model (Ocena modelu), aby ocenić wytrenowany model. W przypadku regresji fast forest quantile metryki są następujące.

Utrata kwantylu: jest to miara błędu dla określonego kwantylu w modelu.
Średnia utrata kwantylu: jest to po prostu średnia wartości utraty kwantylu we wszystkich kwantylach uwzględniona w modelu. Daje ogólną miarę tego, jak dobrze działa model we wszystkich kwantylach.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Edukacja.