Udostępnij za pośrednictwem


Obcinanie wartości

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Wykrywa odejścia i klipy lub zastępuje ich wartości

Kategoria: Przekształcanie/skalowanie i zmniejszanie danych

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Clip Values w programie Machine Learning Studio (wersja klasyczna) do identyfikowania i opcjonalnie zastępowania wartości danych, które są powyżej lub poniżej określonego progu. Jest to przydatne, gdy chcesz usunąć wartości odstających lub zastąpić je średnią, stałą lub inną wartością podstawioną.

Połącz moduł z zestawem danych, który zawiera liczby, które chcesz przycinać, wybierz kolumny do pracy, a następnie ustaw próg lub zakres wartości oraz metodę zastępczą. Moduł może wyprowadzać tylko wyniki lub zmienione wartości dołączone do oryginalnego zestawu danych.

Jak skonfigurować wartości clip

Przed rozpoczęciem zidentyfikuj kolumny, które chcesz przycinać, oraz metodę do użycia. Zalecamy przetestowanie dowolnej metody przycinania na małym podzestawie danych.

Moduł stosuje te same kryteria i metodę zastępczą do wszystkich kolumn, które są dołączane do zaznaczenia. Dlatego pamiętaj, aby wykluczyć kolumny, których nie chcesz zmieniać.

Jeśli musisz zastosować metody przycinania lub inne kryteria do niektórych kolumn, musisz użyć nowego wystąpienia wartości clip dla każdego zestawu podobnych kolumn.

  1. Dodaj moduł Clip Values (Obcięcie wartości) do eksperymentu i połącz go z zestawem danych, który chcesz zmodyfikować. Ten moduł można znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i Redukcja.

  2. Na liście kolumn użyj selektora kolumn, aby wybrać kolumny , do których zostaną zastosowane wartości clip.

  3. W przypadku ustawienia Zestaw progów wybierz jedną z następujących opcji z listy rozwijanej. Te opcje określają sposób ustawienia górnych i dolnych granic dopuszczalnych wartości względem wartości, które muszą być obcinane.

    • ClipPeaks: podczas obcinania wartości według wartości szczytowych należy określić tylko górną granicę. Wartości większe niż ta wartość granicy są zastępowane lub usuwane.

    • ClipSubpeaks: podczas obcinania wartości według podwyżek należy określić tylko dolną granicę. Wartości mniejsze niż ta wartość granicy są zastępowane lub usuwane.

    • ClipPeaksAndSubpeaks: podczas obcinania wartości według wartości szczytowych i podwyżek można określić zarówno górną, jak i dolną granicę. Wartości spoza tego zakresu są zastępowane lub usuwane. Wartości zgodne z wartościami granicy nie są zmieniane.

  4. W zależności od wyboru w poprzednim kroku można ustawić następujące wartości progowe:

    • Dolny próg: wyświetlany tylko w przypadku wybrania opcji ClipSubPeaks
    • Górny próg: wyświetlany tylko w przypadku wybrania clippeaks
    • Próg: wyświetlany tylko w przypadku wybrania opcji ClipPeaksAndSubPeaks

    Dla każdego typu progu wybierz wartość Stała lubPercentyl.

  5. Jeśli wybierzesz pozycję Stała, wpisz wartość maksymalną lub minimalną w polu tekstowym. Załóżmy na przykład, że wiesz, że wartość 999 została użyta jako wartość symbolu zastępczego. Możesz wybrać stałą dla górnego progu i wpisać 999 w stałej wartości górnego progu.

  6. Jeśli wybierzesz pozycję Percentyl, ograniczysz wartości kolumn do zakresu percentyla.

    Załóżmy na przykład, że chcesz zachować tylko wartości z zakresu od 10 do 80 percentyla i zastąpić wszystkie pozostałe. Wybierz pozycję Percentyl, a następnie wpisz wartość 10 dla wartości Percentyl niższego progu i wpisz wartość 80 dla wartości Percentyl górnego progu.

    Zobacz sekcję na temat percentyli, aby uzyskać przykłady użycia zakresów percentyla.

  7. Zdefiniuj wartość podstawioną.

    Liczby, które dokładnie pasują do określonych właśnie granic, są uznawane za wewnątrz dozwolonego zakresu wartości i w związku z tym nie są zastępowane ani usuwane. Wszystkie liczby spoza określonego zakresu są zastępowane wartością podstawioną.

    • Zamień wartość na wartości szczytowe: definiuje wartość, która ma zastąpić wszystkie wartości kolumn, które są większe niż określony próg.
    • Zastąp wartość dla podwymian: definiuje wartość do użycia jako zamiennik wszystkich wartości kolumn, które są mniejsze niż określony próg.
    • Jeśli używasz opcji ClipPeaksAndSubpeaks , możesz określić oddzielne wartości zastępcze dla górnych i dolnych wartości obciętych.

    Obsługiwane są następujące wartości zastępcze:

    • Próg: zastępuje obcinane wartości określoną wartością progową.

    • Średnia: zastępuje obcinane wartości średnią wartości kolumn. Średnia jest obliczana przed obcięciem wartości.

    • Mediana: zastępuje wartości obcinane medianą wartości kolumn. Mediana jest obliczana przed obcięciem wartości.

    • Brak. Zastępuje obcinane wartości brakującą (pustą) wartością.

  8. Dodaj kolumny wskaźników: wybierz tę opcję, jeśli chcesz wygenerować nową kolumnę, która informuje o tym, czy określona operacja przycinania została zastosowana do danych w tym wierszu. Ta opcja jest szczególnie przydatna podczas testowania nowego zestawu wartości przycinania i podstawienia.

  9. Flaga zastępowania: wskazuje sposób generowania nowych wartości. Domyślnie clip values tworzy nową kolumnę z wartościami szczytowych obciętymi do żądanego progu. Nowe wartości zastępują oryginalną kolumnę.

    Aby zachować oryginalną kolumnę i dodać nową kolumnę ze obciętymi wartościami, usuń zaznaczenie tej opcji.

  10. Uruchom eksperyment.

    Kliknij prawym przyciskiem myszy dane wyjściowe modułu Clip Values (Obcięcie wartości) i wybierz pozycję Visualize (Wizualizacja), aby przejrzeć wartości i upewnić się, że operacja przycinania spełnia twoje oczekiwania.

Przykłady

Aby zobaczyć, jak ten moduł jest używany w eksperymentach uczenia maszynowego, zobacz Azure AI Gallery:

  • Odejścia od lasu: w tym przykładzie z zastosowaniem EdX w nauce o danych pokazano metody przycinania przy użyciu przykładowego zestawu danych Forest Fires.

Przycinanie przy użyciu percentylów

Aby zrozumieć, jak działa przycinanie według percentylów, rozważ zestaw danych z 10 wierszami, które mają jedno wystąpienie z wartościami 1–10.

  • Jeśli używasz percentyla jako górnego progu, przy wartości 90. percentyla 90% wszystkich wartości w zestawie danych musi być mniejsze niż ta wartość.

  • Jeśli używasz percentyla jako dolnego progu, przy wartości 10. percentyla 10% wszystkich wartości w zestawie danych musi być mniejsze niż ta wartość.

  1. W przypadku ustawienia Zestaw progów wybierz pozycję ClipPeaksAndSubPeaks.

  2. W przypadku opcji Górny prógwybierz pozycję Percentyl, a w przypadku wartości Percentyl wpisz wartość 90.

  3. W przypadku opcji Upper substitute value (Górna wartość podstawna) wybierz pozycję Missing Value (Brak wartości).

  4. W przypadku opcji Dolny próg wybierz pozycję Percentyl, a w przypadku wartości Percentyl wpisz wartość 10.

  5. W przypadku wartości podstawionej Dolna wybierz pozycję Brak wartości.

  6. Usuń zaznaczenie flagi Zastąp i wybierz opcję Dodaj kolumnę wskaźnika.

Teraz wypróbuj ten sam eksperyment, używając wartości 60 jako górnego progu percentyla i 30 jako dolnego progu percentyla, a następnie użyj wartości progowej jako wartości zastępczej. W poniższej tabeli porównano te dwa wyniki:

  1. Zamień na brakujące; Górny próg = 90; Dolny próg = 10

  2. Zastąp wartością progową; Górny percentyl = 60; Niższy percentyl = 30

Oryginalne dane Zamień na brakujące Zastąp wartością progową
1

2

3

4

5

6

7

8

9

10
Prawda

Prawda

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Uwagi techniczne

  • Wartości clip można używać tylko w kolumnach zawierających liczby lub wartości daty/czasu.

  • Jeśli dołączysz kolumny, które zawierają tekst lub dane kategorii, te kolumny zostaną pominięte.

  • Brakujące wartości są ignorowane, gdy wartość średniej lub mediany jest obliczana dla kolumny.

  • Wartości clip nie obsługują danych porządkowych.

  • Brakujące wartości nie są zmieniane, gdy są propagowane do wyjściowego zestawu danych. Kolumna wskazująca obciętych wartości zawsze zawiera wartość FALSE dla brakujących wartości.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Dodawanie kolumn wskaźników PRAWDA/FAŁSZ Wartość logiczna FALSE Czy dodać wskaźnik obcinania wartości jest wykonywane
Wartość stała dla dolnego progu dowolny Float -1 Wartość, poniżej której zostaną obcięcie podwymian
Stała wartość górnego progu dowolny Float 1 Wartość, nad którą zostaną obcięty wartości szczytowe
Stała wartość dolnego progu dowolny Float -1 Wartość, poniżej której są obcinane podgrzybki
Stała wartość górnego progu >= 1 Float 1 Wartość, nad którą są obcinane wartości szczytowe
Lista kolumn ColumnSelection Lista kolumn do przycinania
Dolna wartość podstawiona Próg

Średnia

Mediana

Brakuje
SubstituteValues Próg Wartość używana do przycinania podwymian
Dolny próg Stała

Percentyl
Tryb progu Stała Wartość, poniżej której zostanie obcięty tryb podwymian
Flaga zastępowania PRAWDA/FAŁSZ Wartość logiczna TRUE Czy obcinane kolumny danych muszą zastępować kolumny danych wejściowych
Percentyl dla niższego progu [1;99] Liczba całkowita 1 Percentyl, poniżej którego zostaną obcięcie podwymian
Numer percentyla dla górnego progu [1;99] Liczba całkowita 99 Percentyl, powyżej którego wartości szczytowe zostaną obcięte
Percentyl niższego progu [1;99] Liczba całkowita 1 Percentyl, poniżej którego są obcinane podwyjazy
Percentyl górnego progu [1;99] Liczba całkowita 99 Percentyl, powyżej którego wartości szczytowe są obcinane
Zestaw progów ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Zestaw progów ClipPeaks Określa typ progu do użycia
Podstaw wartość dla wartości szczytowych Próg

Średnia

Mediana

Brakuje
SubstituteValues Próg Wartość używana podczas obcinania szczytów
Podstaw wartość dla podwymian Próg

Średnia

Mediana

Brakuje
SubstituteValues Próg Wartość używana podczas przycinania podwymian
Próg Stała

Percentyl
Tryb progu Stała Wartość powyżej i poniżej której wartości szczytowe będą w trybie obcinania
Górna wartość podstawiona Próg

Średnia

Mediana

Brakuje
Próg Próg Wartość używana do obcinania wartości szczytowych
Górny próg Stała

Percentyl
Tryb progu Stała Wartość, nad którą wartości szczytowe będą w trybie obcinania

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Zestaw danych ze obciętymi kolumnami

Wyjątki

Wyjątek Opis
Błąd 0011 Wyjątek występuje, jeśli przekazany argument zestawu kolumn nie ma zastosowania do żadnej kolumny zestawu danych.
Błąd 0017 Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Skalowanie i zmniejszanie
Lista modułów A–Z