Wybór funkcji oparty na filtrze

W tym artykule opisano sposób używania składnika Wyboru funkcji opartej na filtrze w projektancie Azure Machine Learning. Ten składnik pomaga zidentyfikować kolumny w wejściowym zestawie danych, które mają największą moc predykcyjną.

Ogólnie rzecz biorąc, wybór funkcji odnosi się do procesu stosowania testów statystycznych do danych wejściowych, biorąc pod uwagę określone dane wyjściowe. Celem jest określenie, które kolumny są bardziej predykcyjne danych wyjściowych. Składnik Wybór funkcji oparty na filtrze udostępnia wiele algorytmów wyboru funkcji do wyboru. Składnik zawiera metody korelacji, takie jak korelacja Pearson i wartości chi kwadratu.

W przypadku korzystania z składnika Wyboru funkcji opartej na filtrze należy podać zestaw danych i zidentyfikować kolumnę zawierającą etykietę lub zmienną zależną. Następnie należy określić jedną metodę do użycia w mierzeniu znaczenia funkcji.

Składnik generuje zestaw danych zawierający najlepsze kolumny funkcji według mocy predykcyjnej. Generuje również nazwy funkcji i ich wyników z wybranej metryki.

Wybór funkcji opartej na filtrze jest

Ten składnik wyboru funkcji jest nazywany "opartym na filtrze", ponieważ używasz wybranej metryki, aby znaleźć nieistotne atrybuty. Następnie odfiltrujesz nadmiarowe kolumny z modelu. Wybierasz pojedynczą miarę statystyczną, która odpowiada danym, a składnik oblicza wynik dla każdej kolumny funkcji. Kolumny są zwracane według wyników funkcji.

Wybierając odpowiednie funkcje, możesz potencjalnie zwiększyć dokładność i wydajność klasyfikacji.

Zazwyczaj do tworzenia modelu predykcyjnego są używane tylko kolumny z najlepszymi wynikami. Kolumny o słabych wynikach wyboru funkcji można pozostawić w zestawie danych i ignorować podczas tworzenia modelu.

Jak wybrać metrykę wyboru funkcji

Składnik Filter-Based Wybór funkcji udostępnia różne metryki do oceny wartości informacji w każdej kolumnie. Ta sekcja zawiera ogólny opis każdej metryki i sposób jej stosowania. Dodatkowe wymagania dotyczące używania każdej metryki można znaleźć w informacjach technicznych oraz w instrukcjach dotyczących konfigurowania każdego składnika.

  • Korelacja Pearson

    Statystyka korelacji Pearsona lub współczynnik korelacji Pearsona jest również znana w modelach statystycznych jako r wartości. W przypadku dowolnych dwóch zmiennych zwraca wartość wskazującą siłę korelacji.

    Współczynnik korelacji Pearsona jest obliczany przez wariancję dwóch zmiennych i dzielenie przez produkt ich odchylenia standardowego. Zmiany skali w dwóch zmiennych nie wpływają na współczynnik.

  • Chi kwadrat

    Dwukierunkowy test chi kwadrat jest metodą statystyczną, która mierzy, jak bliskie oczekiwane wartości mają rzeczywiste wyniki. Metoda zakłada, że zmienne są losowe i pobierane z odpowiedniej próbki zmiennych niezależnych. Wynikowa statystyka chi kwadrat wskazuje, jak daleko są wyniki od oczekiwanego (losowego) wyniku.

Porada

Jeśli potrzebujesz innej opcji dla niestandardowej metody wyboru funkcji, użyj składnika Execute R Script (Wykonaj skrypt języka R ).

Jak skonfigurować wybór funkcji Filter-Based

Wybierasz standardową metrykę statystyczną. Składnik oblicza korelację między parą kolumn: kolumną etykiety i kolumną funkcji.

  1. Dodaj składnik wyboru funkcji Filter-Based do potoku. Można go znaleźć w kategorii Wybór funkcji w projektancie.

  2. Połączenie wejściowy zestaw danych zawierający co najmniej dwie kolumny, które są potencjalnymi funkcjami.

    Aby upewnić się, że kolumna jest analizowana i generowany jest wynik funkcji, użyj składnika Edit Metadata (Edytuj metadane ), aby ustawić atrybut IsFeature .

    Ważne

    Upewnij się, że kolumny, które podajesz jako dane wejściowe, są potencjalnymi funkcjami. Na przykład kolumna zawierająca jedną wartość nie ma wartości informacji.

    Jeśli wiesz, że niektóre kolumny spowodują nieprawidłowe funkcje, możesz je usunąć z zaznaczenia kolumny. Możesz również użyć składnika Edit Metadata (Edytuj metadane ), aby oznaczyć je jako kategorialne.

  3. W polu Metoda oceniania funkcji wybierz jedną z następujących ustalonych metod statystycznych do użycia podczas obliczania wyników.

    Metoda Wymagania
    Korelacja Pearson Etykieta może być tekstem lub cyfrą. Funkcje muszą być numeryczne.
    Chi kwadrat Etykiety i funkcje mogą być tekstowe lub liczbowe. Ta metoda służy do obliczania znaczenia funkcji dla dwóch kolumn kategorii.

    Porada

    W przypadku zmiany wybranej metryki wszystkie inne opcje zostaną zresetowane. Pamiętaj więc, aby najpierw ustawić tę opcję.

  4. Wybierz opcję Operuj tylko na kolumnach funkcji , aby wygenerować wynik tylko dla kolumn, które zostały wcześniej oznaczone jako funkcje.

    Jeśli usuniesz tę opcję, składnik utworzy wynik dla dowolnej kolumny, która w przeciwnym razie spełnia kryteria, do liczby kolumn określonych w liczbie żądanych funkcji.

  5. W obszarze Kolumna docelowa wybierz pozycję Uruchom selektor kolumny , aby wybrać kolumnę etykiety według nazwy lub indeksu. (Indeksy są oparte na jednym).
    Kolumna etykiety jest wymagana dla wszystkich metod obejmujących korelację statystyczną. Składnik zwraca błąd czasu projektowania, jeśli nie wybierzesz kolumny etykiety ani wielu kolumn etykiet.

  6. W polu Liczba żądanych funkcji wprowadź liczbę kolumn funkcji, które mają zostać zwrócone w wyniku:

    • Minimalna liczba funkcji, które można określić, to jedna, ale zalecamy zwiększenie tej wartości.

    • Jeśli określona liczba żądanych funkcji jest większa niż liczba kolumn w zestawie danych, zwracane są wszystkie funkcje. Zwracane są nawet funkcje z zerowymi wynikami.

    • Jeśli określisz mniej kolumn wyników niż istnieją kolumny funkcji, funkcje są klasyfikowane według wyniku malejącego. Zwracane są tylko najważniejsze funkcje.

  7. Prześlij potok.

Ważne

Jeśli zamierzasz użyć opcji wyboru funkcji opartej na filtrach w wnioskowaniu, musisz użyć funkcji Select Columns Transform (Wybierz przekształcenie kolumn ), aby zapisać wybrany wynik funkcji i zastosuj przekształcenie , aby zastosować wybrane przekształcenie funkcji do zestawu danych oceniania.

Zapoznaj się z poniższym zrzutem ekranu, aby skompilować potok, aby upewnić się, że wybory kolumn są takie same dla procesu oceniania.

Sample pipeline

Wyniki

Po zakończeniu przetwarzania:

  • Aby wyświetlić pełną listę przeanalizowanych kolumn funkcji i ich wyników, kliknij prawym przyciskiem myszy składnik i wybierz pozycję Wizualizuj.

  • Aby wyświetlić zestaw danych na podstawie kryteriów wyboru funkcji, kliknij prawym przyciskiem myszy składnik i wybierz pozycję Wizualizuj.

Jeśli zestaw danych zawiera mniej kolumn niż oczekiwano, sprawdź ustawienia składnika. Sprawdź również typy danych kolumn podanych jako dane wejściowe. Jeśli na przykład ustawisz wartość Liczba żądanych funkcji na 1, wyjściowy zestaw danych zawiera tylko dwie kolumny: kolumnę etykiety i najbardziej sklasyfikowaną kolumnę funkcji.

Uwagi techniczne

Szczegóły implementacji

Jeśli używasz korelacji Pearson w funkcji liczbowej i etykiety kategorii, wynik funkcji jest obliczany w następujący sposób:

  1. Dla każdego poziomu w kolumnie kategorii oblicz warunkową średnią kolumny liczbowej.

  2. Skoreluj kolumnę środków warunkowych z kolumną liczbową.

Wymagania

  • Nie można wygenerować wyniku wyboru funkcji dla dowolnej kolumny wyznaczonej jako kolumna Etykieta lub Wynik .

  • Jeśli spróbujesz użyć metody oceniania z kolumną typu danych, którego metoda nie obsługuje, składnik zgłosi błąd. Lub do kolumny zostanie przypisany wynik zerowy.

  • Jeśli kolumna zawiera wartości logiczne (true/false), są przetwarzane jako True = 1 i False = 0.

  • Kolumna nie może być funkcją, jeśli została wyznaczona jako etykieta lub wynik.

Sposób obsługi brakujących wartości

  • Nie można określić jako kolumny docelowej (etykiety) żadnej kolumny zawierającej wszystkie brakujące wartości.

  • Jeśli kolumna zawiera brakujące wartości, składnik ignoruje je podczas obliczania wyniku dla kolumny.

  • Jeśli kolumna wyznaczona jako kolumna funkcji ma wszystkie brakujące wartości, składnik przypisuje wynik zerowy.

Następne kroki

Zobacz zestaw składników dostępnych do Azure Machine Learning.