Udostępnij za pośrednictwem


Moduły wyboru funkcji

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano moduły w programie Machine Learning Studio (wersja klasyczna), których można użyć do wyboru funkcji.

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Wybór funkcji jest ważnym narzędziem w uczeniu maszynowym. Machine Learning Studio (klasyczne) udostępnia wiele metod przeprowadzania wyboru funkcji. Wybierz metodę wyboru funkcji na podstawie typu posiadanych danych oraz wymagań zastosowanej techniki statystycznej.

Ten artykuł obejmuje:

Każdy moduł wyboru funkcji w programie Machine Learning Studio (klasyczny) używa zestawu danych jako danych wejściowych. Następnie moduł stosuje dobrze znane metody statystyczne do kolumn danych, które są dostarczane jako dane wejściowe. Dane wyjściowe to zestaw metryk, które mogą pomóc w zidentyfikowaniu kolumn, które mają najlepszą wartość informacji.

Informacje o wyborze funkcji

W uczeniu maszynowym i statystyce wybór funkcji to proces wybierania podzestawu odpowiednich, przydatnych funkcji do użycia podczas tworzenia modelu analitycznego. Wybór funkcji ułatwia zawężenie pola danych do najbardziej wartościowych danych wejściowych. Zawężanie pola danych pomaga zmniejszyć szum i poprawić wydajność trenowania.

Często cechy są tworzone na podstawie danych pierwotnych w procesie inżynierii cech. Na przykład sama sygnatura czasowa może nie być przydatna do modelowania, dopóki informacje nie zostaną przekształcone w jednostki dni, miesięcy lub kategorii, które są istotne dla problemu, takie jak dzień wolny od pracy.

Nowi użytkownicy uczenia maszynowego mogą być kuszeni do dołączania wszystkich dostępnych danych. Mogą oczekiwać, że algorytm znajdzie coś interesującego, używając większej liczby danych. Jednak wybór funkcji zwykle może poprawić model i zapobiec powszechnym problemom:

  • Dane zawierają nadmiarowe lub nieistotne funkcje, które nie zawierają więcej informacji niż aktualnie wybrane funkcje.
  • Dane zawierają nieistotne funkcje, które nie zapewniają żadnych przydatnych informacji w żadnym kontekście. Uwzględniając nieistotne pola, nie tylko wydłuża się czas wymagany do trenowania danych, ale także może prowadzić do słabych wyników.
  • W przypadku niektórych algorytmów zduplikowanie informacji w danych treningowych może prowadzić do zjawiska nazywanego wieloliniowością. W przypadku wieloliniowości obecność dwóch wysoce skorelowanych zmiennych może spowodować, że obliczenia dla innych zmiennych staną się znacznie mniej dokładne.

Porada

Niektóre algorytmy uczenia maszynowego w Machine Learning Studio (klasycznej) również używają wyboru funkcji lub redukcji wymiarowości w ramach procesu trenowania. Korzystając z tych osób uczących się, możesz pominąć proces wyboru funkcji i pozwolić algorytmowi na wybór najlepszych danych wejściowych.

Korzystanie z wyboru funkcji w eksperymencie

Wybór funkcji jest zazwyczaj wykonywany podczas eksplorowania danych i opracowywania nowego modelu. Podczas wyboru funkcji należy pamiętać o tych wskazówkach:

  • Podczas testowania dodaj do eksperymentu wybór funkcji, aby wygenerować wyniki informujące o tym, których kolumn użyć.
  • Usunięcie zaznaczenia funkcji z eksperymentu podczas operacji modelu.
  • Okresowo uruchamiaj wybór funkcji, aby upewnić się, że dane i najlepsze funkcje nie uległy zmianie.

Wybór funkcji różni się od inżynierii cech, która koncentruje się na tworzeniu nowych funkcji z istniejących danych.

Zasoby

Metody wyboru funkcji w programie Machine Learning Studio (wersja klasyczna)

Następujące moduły wyboru funkcji są dostępne w programie Machine Learning Studio (wersja klasyczna).

Wybór funkcji oparty na filtrze

W przypadku korzystania z modułu Wybór funkcji na podstawie filtru można wybierać spośród dobrze znanych metod wyboru funkcji. Moduł zawiera zarówno statystyki wyboru funkcji, jak i przefiltrowany zestaw danych.

Wybór metody wyboru filtru zależy częściowo od rodzaju posiadanych danych wejściowych.

Metoda Obsługiwane dane wejściowe funkcji Obsługiwane etykiety
Korelacja Pearsona Tylko kolumny liczbowe i logiczne Pojedyncza kolumna liczbowa lub logiczna
Wynik informacji wzajemnej Wszystkie typy danych Pojedyncza kolumna dowolnego typu danych
Współczynnik korelacji Kendalla Tylko kolumny liczbowe i logiczne Pojedyncza kolumna liczbowa lub logiczna

Kolumny powinny mieć wartości, które mogą być klasyfikowane
Współczynnik korelacji Spearmana Tylko kolumny liczbowe i logiczne Pojedyncza kolumna liczbowa lub logiczna
Statystyka chi kwadrat Wszystkie typy danych Pojedyncza kolumna dowolnego typu danych
Wynik dla przechłodzy Tylko kolumny liczbowe i logiczne Pojedyncza kolumna liczbowa lub logiczna

Kolumnom ciągów jest przypisywany wynik 0
Wybór funkcji na podstawie liczby Wszystkie typy danych Kolumna etykiety nie jest wymagana

Linear Linear Discriminant Analysis (Analiza liniowa, która jest dyskryminowa)

Liniowa analiza dyskryminowana to nadzorowana technika uczenia, która umożliwia klasyfikowanie zmiennych liczbowych w połączeniu z pojedynczym elementem docelowym kategorii. Metoda jest przydatna do wyboru funkcji, ponieważ identyfikuje kombinację cech lub parametrów, które najlepiej oddzielają grupy.

Możesz użyć modułu Linear Discriminant Analysis (Analiza dyskryminatora liniowego Linear Linear Discriminant Analysis ) do wygenerowania zestawu wyników do przeglądu lub użyć zastępczego zestawu danych wygenerowanego przez moduł do trenowania.

Ważność funkcji permutacji

Moduł Permutation Feature Importance (Ważność funkcji permutacji ) umożliwia symulowanie wpływu dowolnego zestawu cech na zestaw danych. Moduł oblicza wyniki wydajności dla modelu na podstawie losowego migotania wartości cech.

Wyniki zwracane przez moduł reprezentują potencjalną zmianę dokładności wytrenowany model w przypadku zmiany wartości. Za pomocą wyników można określić wpływ poszczególnych zmiennych na model.

Algorytmy uczenia maszynowego, które obejmują wybór funkcji

Niektóre algorytmy uczenia maszynowego w Machine Learning Studio (klasycznej) optymalizują wybór funkcji podczas trenowania. Mogą one również zawierać parametry, które ułatwiają wybór funkcji. Jeśli używasz metody, która ma własną heurystyczną metodę wybierania funkcji, często lepiej jest polegać na tej heurystyce, zamiast na wstępnym wyborze funkcji.

Te algorytmy i metody wyboru funkcji są używane wewnętrznie:

  • Modele wzmacnianego drzewa decyzyjnego na przykład klasyfikacji i regresji

    W tych modułach podsumowanie funkcji jest tworzone wewnętrznie. Funkcje, które mają wagę 0, nie są używane przez żadne podziały drzewa. Podczas wizualizowania najlepszego wytrenowany model można przyjrzeć się każdemu z drzew. Jeśli funkcja nigdy nie jest używana w żadnym drzewie, prawdopodobnie jest kandydatem do usunięcia. Aby zoptymalizować wybór, dobrym pomysłem jest również czyszczenie parametrów.

  • Modele regresji logistycznej i modele liniowe

    Moduły dla wieloklasowej i binarnej regresji logistycznej obsługują regularalizację L1 i L2. Regularyzacja to sposób dodawania ograniczeń podczas trenowania w celu ręcznego określenia aspektu poznanych modeli. Regularyzacja jest zwykle używana w celu uniknięcia naddopasowania. Machine Learning Studio (klasyczne) obsługuje regularalizację dla norm L1 lub L2 wektora wagi w algorytmach klasyfikacji liniowej:

    • Regularyzacja L1 jest przydatna, jeśli celem jest jak najdrzejszy model.
    • Regularyzacja L2 zapobiega nadmiernemu wzrostowi wielkości dowolnej pojedynczej współrzędnej w wektorze wagi. Jest to przydatne, jeśli celem jest model o małych ogólnych wagach.
    • Regresja logistyczna regularna L1 jest bardziej agresywna w przypadku przypisywania wagi 0 do cech. Jest to przydatne w identyfikowaniu funkcji, które można usunąć.

Uwagi techniczne

Wszystkie moduły wyboru funkcji i metody analityczne, które obsługują kolumny liczbowe i logiczne, obsługują również kolumny daty i godziny. Te kolumny są traktowane jako proste kolumny liczbowe, w których każda wartość jest równa liczbie takt.

Następujące moduły nie są w kategorii Wybór funkcji , ale można ich używać do powiązanych zadań. Moduły mogą pomóc zmniejszyć wymiarowość danych lub znaleźć korelacje:

Jeśli masz zestaw danych, który zawiera wiele kolumn, użyj modułu Analiza głównych składników , aby wykryć kolumny zawierające najwięcej informacji o oryginalnych danych.

Ten moduł należy do kategorii Przekształcanie danych w obszarze Skalowanie i zmniejszanie.

Cechowanie na podstawie liczby to nowa technika, której można użyć do określenia przydatnych funkcji przy użyciu dużych zestawów danych. Za pomocą tych modułów można analizować zestawy danych, aby znaleźć najlepsze funkcje, zapisać zestaw funkcji do użycia z nowymi danymi lub zaktualizować istniejący zestaw funkcji.

Ten moduł umożliwia obliczenie zestawu współczynników korelacji Pearsona dla każdej możliwej pary zmiennych w wejściowym zestawie danych. Współczynnik korelacji Pearsona, nazywany również testem R Pearsona, jest wartością statystyczną, która mierzy liniową relację między dwiema zmiennymi.

Ten moduł należy do kategorii Funkcje statystyczne .

Lista modułów

Kategoria Wybór funkcji obejmuje następujące moduły:

Zobacz też