Składnik regresji liniowej

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj tego składnika, aby utworzyć model regresji liniowej do użycia w potoku. Regresja liniowa próbuje ustanowić relację liniową między co najmniej jedną zmienną niezależną a wynikiem liczbowym lub zmienną zależną.

Ten składnik służy do definiowania metody regresji liniowej, a następnie trenowania modelu przy użyciu oznaczonego zestawu danych. Wytrenowany model może następnie służyć do przewidywania.

Informacje o regresji liniowej

Regresja liniowa to powszechna metoda statystyczna, która została przyjęta w uczeniu maszynowym i ulepszona przy użyciu wielu nowych metod dopasowania linii i błędu pomiaru. Po prostu regresja odnosi się do przewidywania wartości docelowej liczbowej. Regresja liniowa jest nadal dobrym wyborem, gdy potrzebujesz prostego modelu dla podstawowego zadania predykcyjnego. Regresja liniowa ma również tendencję do pracy dobrze w przypadku wysokowymiarowych, rozrzednych zestawów danych, które nie mają złożoności.

Usługa Azure Machine Learning obsługuje różne modele regresji, oprócz regresji liniowej. Jednak termin "regresja" można interpretować luźno, a niektóre typy regresji podane w innych narzędziach nie są obsługiwane.

  • Klasyczny problem regresji obejmuje jedną niezależną zmienną i zmienną zależną. Jest to nazywane prostą regresją. Ten składnik obsługuje prostą regresję.

  • Regresja liniowa wielokrotna obejmuje co najmniej dwie niezależne zmienne, które przyczyniają się do pojedynczej zmiennej zależnej. Problemy, w których wiele danych wejściowych jest używanych do przewidywania pojedynczego wyniku liczbowego, jest również nazywane regresją liniową wielowariantową.

    Składnik Regresji liniowej może rozwiązać te problemy, ponieważ większość innych składników regresji.

  • Regresja wielu etykiet to zadanie przewidywania wielu zmiennych zależnych w ramach jednego modelu. Na przykład w regresji logistycznej z wieloma etykietami można przypisać przykład do wielu różnych etykiet. (Różni się to od zadania przewidywania wielu poziomów w ramach zmiennej pojedynczej klasy).

    Ten typ regresji nie jest obsługiwany w usłudze Azure Machine Learning. Aby przewidzieć wiele zmiennych, utwórz oddzielny element uczący się dla poszczególnych danych wyjściowych, które chcesz przewidzieć.

Od lat statystyki opracowują coraz bardziej zaawansowane metody regresji. Dotyczy to nawet regresji liniowej. Ten składnik obsługuje dwie metody mierzenia błędu i dopasowania linii regresji: zwykłych najmniejszych kwadratów i spadku gradientu.

  • Spadek gradientu to metoda, która minimalizuje ilość błędów w każdym kroku procesu trenowania modelu. Istnieje wiele odmian spadku gradientu i jego optymalizacja dla różnych problemów uczenia się została szeroko zbadana. Jeśli wybierzesz tę opcję dla metody Rozwiązania, możesz ustawić różne parametry, aby kontrolować rozmiar kroku, szybkość nauki itd. Ta opcja obsługuje również użycie zintegrowanego zamiatania parametrów.

  • Co najmniej kwadraty to jedna z najczęściej używanych technik regresji liniowej. Na przykład najmniejsze kwadraty to metoda używana w narzędziu Analysis Toolpak dla programu Microsoft Excel.

    Zwykłe najmniejsze kwadraty odnoszą się do funkcji utraty, która oblicza błąd jako sumę kwadratu odległości od rzeczywistej wartości do przewidywanej linii i pasuje do modelu, minimalizując błąd kwadratu. Ta metoda zakłada silną relację liniową między danymi wejściowymi a zmienną zależną.

Konfigurowanie regresji liniowej

Ten składnik obsługuje dwie metody dopasowania modelu regresji z różnymi opcjami:

Tworzenie modelu regresji przy użyciu zwykłych najmniejszych kwadratów

  1. Dodaj składnik Model regresji liniowej do potoku w projektancie.

    Ten składnik można znaleźć w kategorii Machine Learning . Rozwiń węzeł Inicjowanie modelu, rozwiń węzeł Regresja, a następnie przeciągnij składnik Model regresji liniowej do potoku.

  2. W okienku Właściwości na liście rozwijanej Metoda rozwiązania wybierz pozycję Zwykłe kwadraty. Ta opcja określa metodę obliczeniową używaną do znajdowania linii regresji.

  3. W przypadku wagi regularnej L2 wpisz wartość, która ma być używana jako waga dla regularyzacji L2. Zalecamy użycie wartości innej niż zero, aby uniknąć nadmiernego dopasowania.

    Aby dowiedzieć się więcej o tym, jak regularyzacja wpływa na dopasowanie modelu, zobacz ten artykuł: L1 i L2 Regularization for Machine Learning

  4. Wybierz opcję Uwzględnij termin przechwytywania, jeśli chcesz wyświetlić termin przechwytywania.

    Usuń zaznaczenie tej opcji, jeśli nie musisz przeglądać formuły regresji.

  5. W polu Losowe rozstawienie liczb można opcjonalnie wpisać wartość, aby wsieć generator liczb losowych używany przez model.

    Użycie wartości inicjacji jest przydatne, jeśli chcesz zachować te same wyniki w różnych uruchomieniach tego samego potoku. W przeciwnym razie wartością domyślną jest użycie wartości zegara systemowego.

  6. Dodaj składnik Train Model (Trenowanie modelu ) do potoku i połącz oznaczony etykietą zestaw danych.

  7. Prześlij potok.

Wyniki dla modelu z najmniejszymi kwadratami

Po zakończeniu trenowania:

Tworzenie modelu regresji przy użyciu spadku gradientu online

  1. Dodaj składnik Model regresji liniowej do potoku w projektancie.

    Ten składnik można znaleźć w kategorii Machine Learning . Rozwiń węzeł Inicjuj model, rozwiń węzeł Regresja i przeciągnij składnik Modelu regresji liniowej do potoku

  2. W okienku Właściwości na liście rozwijanej Metoda rozwiązania wybierz pozycję Spadek gradientu online jako metodę obliczeniową używaną do znalezienia linii regresji.

  3. W obszarze Tworzenie trybu trenera wskaż, czy chcesz wytrenować model ze wstępnie zdefiniowanym zestawem parametrów, czy też chcesz zoptymalizować model przy użyciu zamiatania parametrów.

    • Pojedynczy parametr: jeśli wiesz, jak skonfigurować sieć regresji liniowej, możesz podać określony zestaw wartości jako argumenty.

    • Zakres parametrów: wybierz tę opcję, jeśli nie masz pewności co do najlepszych parametrów i chcesz uruchomić zamiatanie parametrów. Wybierz zakres wartości do iterowania, a hiperparametry modelu dostrajania iterują wszystkie możliwe kombinacje podanych ustawień w celu określenia hiperparametrów, które generują optymalne wyniki.

  4. W polu Szybkość nauki określ początkowy współczynnik uczenia dla optymalizatora spadku gradientu stochastycznego.

  5. W polu Liczba epok trenowania wpisz wartość wskazującą, ile razy algorytm powinien iterować przez przykłady. W przypadku zestawów danych z niewielką liczbą przykładów ta liczba powinna być duża, aby osiągnąć zbieżność.

  6. Normalizacja funkcji: jeśli już znormalizowano dane liczbowe używane do trenowania modelu, możesz usunąć zaznaczenie tej opcji. Domyślnie składnik normalizuje wszystkie dane wejściowe liczbowe do zakresu od 0 do 1.

    Uwaga

    Pamiętaj, aby zastosować tę samą metodę normalizacji do nowych danych używanych do oceniania.

  7. W przypadku wagi regularnej L2 wpisz wartość, która ma być używana jako waga dla regularyzacji L2. Zalecamy użycie wartości innej niż zero, aby uniknąć nadmiernego dopasowania.

    Aby dowiedzieć się więcej o tym, jak regularyzacja wpływa na dopasowanie modelu, zobacz ten artykuł: L1 i L2 Regularization for Machine Learning

  8. Wybierz opcję Zmniejsz szybkość nauki, jeśli chcesz zmniejszyć szybkość nauki w miarę postępu iteracji.

  9. W polu Losowe rozstawienie liczb można opcjonalnie wpisać wartość, aby wsieć generator liczb losowych używany przez model. Użycie wartości inicjacji jest przydatne, jeśli chcesz zachować te same wyniki w różnych uruchomieniach tego samego potoku.

  10. Trenowanie modelu:

    • Jeśli ustawisz opcję Utwórz tryb trenera na pojedynczy parametr, połącz oznakowany zestaw danych i składnik Train Model .

    • Jeśli ustawisz opcję Utwórz tryb trenera na wartość Zakres parametrów, połącz oznakowany zestaw danych i wytrenuj model przy użyciu hiperparametrów tune model.

    Uwaga

    Jeśli przekazujesz zakres parametrów do trenowania modelu, używa tylko wartości domyślnej na liście pojedynczych parametrów.

    Jeśli przekazujesz jeden zestaw wartości parametrów do składnika Hiperparametry modelu dostrajania , gdy oczekuje on zakresu ustawień dla każdego parametru, ignoruje wartości i używa wartości domyślnych dla ucznia.

    Jeśli wybierzesz opcję Zakres parametrów i wprowadzisz pojedynczą wartość dla dowolnego parametru, ta określona wartość jest używana w całym zamiataniu, nawet jeśli inne parametry zmieniają się w zakresie wartości.

  11. Prześlij potok.

Wyniki spadku gradientu online

Po zakończeniu trenowania:

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.