Udostępnij za pośrednictwem


Regresja porządkowa

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy model regresji porządkowej

Kategoria: Machine Learning / Inicjowanie modelu / Regresja

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano, jak używać modułu Regresja porządkowa w programie Machine Learning Studio (wersja klasyczna) w celu utworzenia modelu regresji, który może służyć do przewidywania wartości sklasyfikowanych.

Niektóre przykłady wartości pozysłowych:

  • Odpowiedzi z ankiet, które przechwytują preferowane marki użytkowników w skali od 1 do 5
  • Kolejność finisherów w wyścigu
  • Adresy URL w wynikach wyszukiwania w klasyfikacji

Więcej informacji na temat regresji porządkowej

Regresja porządkowa jest używana, gdy etykieta lub kolumna docelowa zawiera liczby, ale liczby reprezentują klasyfikację lub kolejność, a nie miarę liczbową.

Przewidywanie liczb porządkowych wymaga innego algorytmu niż przewidywanie wartości liczb w ciągłej skali, ponieważ liczby przypisane do reprezentowania kolejności klasyfikacji nie mają wewnętrznej skali.

Aby na przykład przewidzieć wyniki testów studentów, należy użyć standardowego modelu regresji, ponieważ wyniki testów studentów różnią się w ciągłej skali i można je zmierzyć. Jednak aby przewidzieć klasyfikację klas, należy użyć modelu regresji porządkowej.

Aby uzyskać więcej informacji na temat badań nad tym algorytmem, zobacz ten dokument (plik PDF do pobrania): https://papers.nips.cc/paper/3125-ordinal-regression-by-extended-binary-classification.pdf

Jak skonfigurować regresję porządkową

Ten moduł rozwiązuje problem klasyfikacji jako serię powiązanych problemów klasyfikacji. W związku z tym algorytm tworzy serię rozszerzonych przykładów trenowania przy użyciu modelu binarnego dla każdej klasyfikacji i trenuje przy użyciu tego rozszerzonego zestawu. Ta operacja może być kosztowna obliczeniowo.

  1. Dodaj moduł Model regresji porządkowej do eksperymentu w programie Studio (wersja klasyczna). Ten moduł można znaleźć w Machine Learning — Inicjowanie w kategorii Regresja.

  2. Dodaj moduł obsługujący klasyfikację binarną i skonfiguruj model. W kategorii klasyfikacji znajduje się kilka modułów dwuklasowych .

  3. Połączenie binarny model klasyfikacji jako dane wejściowe modułu Model regresji porządkowej.

  4. Dodatkowe parametry nie są wymagane w modelu regresji porządkowej. Algorytm został wstępnie skonfigurowany z najbardziej efektywnymi parametrami do rozwiązywania problemu klasyfikacji.

  5. Połączenie zestaw danych szkoleniowych i moduł Train Model (Trenowanie modelu).

  6. W module Train Model (Trenowanie modelu) wybierz kolumnę zawierającą wartości klasyfikacji.

    Wartości rangi muszą być wartościami liczbowych, ale nie muszą być liczbami całkowitymi ani liczbami dodatnimi, o ile reprezentują sekwencję.

    Na potrzeby przetwarzania przyjmuje się, że klasyfikacje mają kolejność od 1 do K, gdzie 1 to najniższa ranga, a K to najwyższa ranga. Jednak moduł Train Model (Trenowanie modelu) może działać nawet wtedy, gdy semantyka skali zostanie odwrócona.

    Jeśli na przykład w pierwotnej ankiecie 1 było najwyższym wynikiem, a 5 było najniższym, nie ma to wpływu na przetwarzanie modelu.

  7. Uruchom eksperyment.

Wyniki

Po zakończeniu trenowania:

  • Aby przewidywać, połącz wytrenowany model wraz z nowymi danymi z modułem Score Model (Ocena modelu).

  • Aby przeprowadzić krzyżowe sprawdzanie poprawności zestawu danych z etykietami, połącz nieprzetrenowany model z modelemkrzyżowej weryfikacji.

Przykłady

Aby uzyskać przykłady sposobu, w jaki regresja porządkowa jest używana w uczeniu maszynowym, zobacz Azure AI Gallery.

  • Konserwacja predykcyjna — krok C: W tym przykładzie regresja porządkowa służy do klasyfikowania wartości wyjściowych według modelu klasyfikacji przy założeniu, że wartość odzwierciedla ważność klasyfikacji błędów.

Uwagi techniczne

Algorytm regresji porządkowej używany w tym uczeniu jest implementowany przez rozszerzoną klasyfikację binarną, jak opisano w dokumencie zatytułowanym Regresja porządkowa przez rozszerzoną klasyfikację binarną( Ling Li i Hsuan-Tien Lin) w dokumencie NIPS 2006.

Ograniczenia dotyczące danych wejściowych

Jako celu modelu regresji porządkowej można użyć dowolnej kolumny liczbowej, ale w praktyce należy używać tylko danych, które reprezentują jakąś kolejność lub klasyfikację.

Zakłada się, że interwały między rangami są nieznane, a rozmiar interwału nie ma znaczenia dla modelu; Jednak model zakłada, że sekwencja rang jest zgodna z naturalną kolejnością liczb.

Sam model nie przypisuje żadnego znaczenia do określonej skali. Innymi słowy, można utworzyć jeden model, w którym 1 jest dobrą rangą, a 10 jest najgorszym, a w innym modelu przyjęto założenie, że 10 to żądana ranga, a 1 to najgorszy.

Algorytm klasyfikacji

Zestaw treningowy (X,Y) składa się z wektorów wejściowych x i etykiet y. Etykiety reprezentują szeregi od 1 do k w sekwencji: 1,2, ... , K. Zakłada się, że klasyfikacje są uporządkowane w taki sposób, że 1 jest najniższym lub najgorszym rangą, a K jest najlepszą lub najwyższą rangą.

Crux algorytmu polega na zmodyfikowaniu danych wejściowych cech X i etykietach Y w celu użycia rozszerzonych przykładów, a następnie użyciu klasyfikatora binarnego do rozwiązania problemu regresji porządkowej. Klasyfikator binarny jest trenowany w celu dawać odpowiedź "tak/nie" na pytanie "Czy ranga jest większa niż r?".

Na przykład dla każdego przypadku w zestawie treningowym istnieją rozszerzone przykłady K-1 , a maksymalna zaobserwowana ranga to K. Funkcje rozszerzone są formowane przez dołączenie pierwszego wiersza macierzy tożsamości K-1 x K-1 do cech wejściowych dla wszystkich i. Etykiety mają nadaną liczbę +1 dla pierwszych wierszy r-1, jeśli jej ranga wynosi r i -1 dla pozostałych.

Przykładowe obliczenia

Aby zilustrować, jak to działa, niech x1 będzie funkcją trenowania, której ranga wynosi 3, a maksymalna zaobserwowana ranga wynosi 5. Rozszerzone przykłady odpowiadające tej funkcji są następujące:

Sprawa Testowanie Etykieta wynikowa
X11000 Czy ranga jest większa niż 1? Tak. dlatego +1
X10100 Czy ranga jest większa niż 2? Tak. dlatego +1
X10010 Czy ranga jest większa niż 3? Nie; w związku z tym nie ma dodatkowej funkcji
X10001 Czy ranga jest większa niż 4? Nie; w związku z tym nie ma dodatkowej funkcji

Oczekiwane dane wejściowe

Nazwa Typ Opis
Nieprzetrenowany binarny model klasyfikacji ILearner, interfejs Nieprzetrenowany binarny model klasyfikacji

Dane wyjściowe

Nazwa Typ Opis
Nieprzetrenowany model ILearner, interfejs Nieprzetrenowany model regresji porządkowej

Zobacz też

Regresja