Składnik regresji liniowej

Artykuł
09/01/2024

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model regresji liniowej do użycia w potoku. Regresja liniowa próbuje ustanowić relację liniową między co najmniej jedną zmienną niezależną a wynikiem liczbowym lub zmienną zależną.

Ten składnik służy do definiowania metody regresji liniowej, a następnie trenowania modelu przy użyciu oznaczonego zestawu danych. Następnie wytrenowany model może służyć do przewidywania.

Informacje o regresji liniowej

Regresja liniowa to typowa metoda statystyczna, która została przyjęta w uczeniu maszynowym i ulepszona o wiele nowych metod dopasowywania linii i mierzenia błędu. Po prostu regresja odnosi się do przewidywania wartości docelowej liczbowej. Regresja liniowa jest nadal dobrym wyborem, gdy potrzebujesz prostego modelu dla podstawowego zadania predykcyjnego. Regresja liniowa ma również tendencję do dobrego działania w przypadku zestawów danych o wysokim wymiarach i rozrzedzania, które nie mają złożoności.

Usługa Azure Machine Learning obsługuje różne modele regresji, oprócz regresji liniowej. Jednak termin "regresja" może być interpretowany luźno, a niektóre typy regresji podane w innych narzędziach nie są obsługiwane.

Klasyczny problem regresji obejmuje jedną niezależną zmienną i zmienną zależną. Jest to nazywane regresją prostą. Ten składnik obsługuje regresję prostą.
Regresja liniowa wielokrotna obejmuje co najmniej dwie niezależne zmienne, które przyczyniają się do pojedynczej zmiennej zależnej. Problemy, w których wiele danych wejściowych jest używanych do przewidywania pojedynczego wyniku liczbowego, jest również nazywane regresją liniową wielowariancji.

Składnik Regresji liniowej może rozwiązać te problemy, podobnie jak większość innych składników regresji.
Regresja wielu etykiet to zadanie przewidywania wielu zmiennych zależnych w ramach jednego modelu. Na przykład w regresji logistycznej z wieloma etykietami można przypisać przykład do wielu różnych etykiet. (Różni się to od zadania przewidywania wielu poziomów w ramach pojedynczej zmiennej klasy).

Ten typ regresji nie jest obsługiwany w usłudze Azure Machine Learning. Aby przewidzieć wiele zmiennych, utwórz osobny element uczący się dla każdego danych wyjściowych, które chcesz przewidzieć.

Od lat statystycy opracowują coraz bardziej zaawansowane metody regresji. Dotyczy to nawet regresji liniowej. Ten składnik obsługuje dwie metody mierzenia błędu i dopasowania linii regresji: zwykłej metody najmniejszych kwadratów i spadku gradientu.

Spadek gradientu to metoda, która minimalizuje ilość błędów na każdym etapie procesu trenowania modelu. Istnieje wiele odmian spadku gradientu, a jego optymalizacja pod kątem różnych problemów z uczeniem została szeroko zbadana. Jeśli wybierzesz tę opcję dla metody Rozwiązania, możesz ustawić różne parametry, aby kontrolować rozmiar kroku, szybkość nauki itd. Ta opcja obsługuje również użycie zintegrowanego zamiatania parametrów.
Najmniejsze kwadraty to jedna z najczęściej używanych technik regresji liniowej. Na przykład najmniej kwadraty to metoda używana w narzędziu Analysis Toolpak dla programu Microsoft Excel.

Zwykłe najmniejsze kwadraty odnoszą się do funkcji utraty, która oblicza błąd jako sumę kwadratu odległości od rzeczywistej wartości do przewidywanej linii i pasuje do modelu, minimalizując błąd kwadratowy. Ta metoda zakłada silną relację liniową między danymi wejściowymi a zmienną zależną.

Konfigurowanie regresji liniowej

Ten składnik obsługuje dwie metody dopasowywania modelu regresji z różnymi opcjami:

Dopasuj model regresji przy użyciu zwykłych najmniejszych kwadratów

W przypadku małych zestawów danych najlepszym rozwiązaniem jest wybranie zwykłych najmniejszych kwadratów. Powinno to dać podobne wyniki do programu Excel.
Tworzenie modelu regresji przy użyciu spadku gradientu online

Spadek gradientu to lepsza funkcja utraty dla modeli, które są bardziej złożone lub które mają zbyt małe dane treningowe, biorąc pod uwagę liczbę zmiennych.

Tworzenie modelu regresji przy użyciu zwykłych najmniejszych kwadratów

Dodaj składnik Model regresji liniowej do potoku w projektancie.

Ten składnik można znaleźć w kategorii Uczenie maszynowe . Rozwiń węzeł Inicjowanie modelu, rozwiń węzeł Regresja, a następnie przeciągnij składnik Model regresji liniowej do potoku.
W okienku Właściwości na liście rozwijanej Metoda rozwiązania wybierz pozycję Zwykłe kwadraty. Ta opcja określa metodę obliczeniową używaną do znajdowania linii regresji.
W wagach uregulowania L2 wpisz wartość, która ma być używana jako waga dla uregulowania L2. Zalecamy użycie wartości innej niż zero, aby uniknąć nadmiernego dopasowania.

Aby dowiedzieć się więcej o tym, jak regularyzacja wpływa na dopasowanie modelu, zobacz ten artykuł: L1 i L2 Regularization for Machine Learning (Regularyzacja L1 i L2 na potrzeby uczenia maszynowego)
Wybierz opcję Dołącz termin przechwytywania, jeśli chcesz wyświetlić termin przechwytywania.

Usuń zaznaczenie tej opcji, jeśli nie musisz przeglądać formuły regresji.
W przypadku inicjatora liczb losowych można opcjonalnie wpisać wartość, aby zainicjować generator liczb losowych używany przez model.

Użycie wartości inicjatora jest przydatne, jeśli chcesz zachować te same wyniki w różnych uruchomieniach tego samego potoku. W przeciwnym razie wartością domyślną jest użycie wartości z zegara systemowego.
Dodaj składnik Train Model (Trenowanie modelu) do potoku i połącz zestaw danych z etykietą .
Prześlij potok.

Wyniki dla modelu zwykłych najmniejszych kwadratów

Po zakończeniu szkolenia:

Aby przewidywać, połącz wytrenowany model ze składnikiem Score Model (Generowanie wyników dla modelu ) wraz z zestawem danych nowych wartości.

Tworzenie modelu regresji przy użyciu spadku gradientu online

Dodaj składnik Model regresji liniowej do potoku w projektancie.

Ten składnik można znaleźć w kategorii Uczenie maszynowe . Rozwiń węzeł Initialize Model (Inicjowanie modelu), rozwiń węzeł Regresja i przeciągnij składnik Linear Regression Model (Model regresji liniowej) do potoku
W okienku Właściwości na liście rozwijanej Metoda rozwiązania wybierz pozycję Spadek gradientu online jako metodę obliczeniową używaną do znalezienia linii regresji.
W obszarze Tworzenie trybu trenera wskaż, czy chcesz wytrenować model przy użyciu wstępnie zdefiniowanego zestawu parametrów, czy też chcesz zoptymalizować model przy użyciu zamiatania parametrów.
- Pojedynczy parametr: jeśli wiesz, jak skonfigurować sieć regresji liniowej, możesz podać określony zestaw wartości jako argumenty.
- Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują we wszystkich możliwych kombinacjach podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.
W polu Wskaźnik nauki określ początkowy współczynnik uczenia dla optymalizatora spadku gradientu stochastycznego.
W polu Liczba epok trenowania wpisz wartość wskazującą, ile razy algorytm powinien iterować przez przykłady. W przypadku zestawów danych z niewielką liczbą przykładów ta liczba powinna być duża, aby osiągnąć zbieżność.
Normalizacja funkcji: jeśli znormalizowano już dane liczbowe używane do trenowania modelu, możesz usunąć zaznaczenie tej opcji. Domyślnie składnik normalizuje wszystkie dane wejściowe liczbowe do zakresu od 0 do 1.

Uwaga

Pamiętaj, aby zastosować tę samą metodę normalizacji do nowych danych używanych do oceniania.
W wagach uregulowania L2 wpisz wartość, która ma być używana jako waga dla uregulowania L2. Zalecamy użycie wartości innej niż zero, aby uniknąć nadmiernego dopasowania.

Aby dowiedzieć się więcej o tym, jak regularyzacja wpływa na dopasowanie modelu, zobacz ten artykuł: L1 i L2 Regularization for Machine Learning (Regularyzacja L1 i L2 na potrzeby uczenia maszynowego)
Wybierz opcję Zmniejsz szybkość nauki, jeśli chcesz, aby tempo nauki zmniejszało się wraz z postępem iteracji.
W przypadku inicjatora liczb losowych można opcjonalnie wpisać wartość, aby zainicjować generator liczb losowych używany przez model. Użycie wartości inicjatora jest przydatne, jeśli chcesz zachować te same wyniki w różnych uruchomieniach tego samego potoku.
Trenowanie modelu:
- Jeśli ustawisz opcję Utwórz tryb trenera na Pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model (Trenowanie modelu).
- Jeśli ustawisz opcję Utwórz tryb trenera na Wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów dostrajania modelu.
Uwaga

Jeśli przekażesz zakres parametrów do trenowania modelu, zostanie użyta tylko wartość domyślna na liście pojedynczych parametrów.

Jeśli przekażesz pojedynczy zestaw wartości parametrów do składnika hiperparametrów modelu dostrajania , gdy oczekuje ona zakresu ustawień dla każdego parametru, zignoruje wartości i używa wartości domyślnych dla ucznia.

Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, określona pojedyncza wartość jest używana w trakcie zamiatania, nawet jeśli inne parametry zmienią się w zakresie wartości.
Prześlij potok.

Wyniki spadku gradientu online

Po zakończeniu szkolenia:

Aby przewidywać, połącz wytrenowany model ze składnikiem Score Model (Generowanie wyników dla modelu ) wraz z nowymi danymi wejściowymi.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.

Udostępnij za pośrednictwem