Obcinanie wartości

W tym artykule opisano składnik projektanta usługi Azure Machine Learning.

Użyj składnika Wartości wycinków, aby zidentyfikować i opcjonalnie zastąpić wartości danych, które są powyżej lub poniżej określonego progu średnią, stałą lub inną wartością zastępczą.

Składnik łączy się z zestawem danych zawierającym numery, z którymi chcesz utworzyć klip, wybierasz kolumny do pracy, a następnie ustawiasz próg lub zakres wartości oraz metodę zastępczą. Składnik może wygenerować tylko wyniki lub zmienione wartości dołączone do oryginalnego zestawu danych.

Jak skonfigurować wartości wycinków

Przed rozpoczęciem zidentyfikuj kolumny, których chcesz utworzyć, oraz metodę do użycia. Zalecamy przetestowanie dowolnej metody przycinania na małym podzestawie danych.

Składnik stosuje te same kryteria i metodę zamiany do wszystkich kolumn uwzględninych w zaznaczeniu. W związku z tym należy wykluczyć kolumny, których nie chcesz zmieniać.

Jeśli chcesz zastosować metody wycinków lub inne kryteria do niektórych kolumn, musisz użyć nowego wystąpienia wartości wycinków dla każdego zestawu podobnych kolumn.

  1. Dodaj składnik Clip Values do potoku i połącz go z zestawem danych, który chcesz zmodyfikować. Ten składnik można znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i zmniejszanie .

  2. Na liście kolumn użyj selektora kolumn, aby wybrać kolumny, do których zostaną zastosowane wartości wycinków .

  3. W obszarze Zestaw progów wybierz jedną z następujących opcji z listy rozwijanej. Te opcje określają, jak ustawić górne i dolne granice dla dopuszczalnych wartości w porównaniu z wartościami, które muszą zostać obcięte.

    • ClipPeaks: Podczas tworzenia wycinków wartości według szczytów należy określić tylko górną granicę. Wartości większe niż ta wartość graniczna są zastępowane.

    • ClipSubpeaks: Podczas tworzenia wycinków według podpeaks określisz tylko dolną granicę. Wartości, które są mniejsze niż ta wartość graniczna, są zastępowane.

    • ClipPeaksAndSubpeaks: Podczas tworzenia wycinków według wartości szczytowych i podpeaks można określić zarówno górną, jak i dolną granicę. Wartości spoza tego zakresu są zastępowane. Wartości zgodne z wartościami granic nie są zmieniane.

  4. W zależności od wyboru w poprzednim kroku można ustawić następujące wartości progowe:

    • Niższy próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipSubPeaks
    • Górny próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipPeaks
    • Próg: wyświetlany tylko wtedy, gdy wybierzesz pozycję ClipPeaksAndSubPeaks

    Dla każdego typu progu wybierz pozycję Stała lub Percentyl.

  5. W przypadku wybrania pozycji Stała wpisz wartość maksymalną lub minimalną w polu tekstowym. Załóżmy na przykład, że wiesz, że wartość 999 została użyta jako wartość zastępcza. Możesz wybrać wartość Stała dla górnego progu i wpisać wartość 999 w polu Stała dla górnego progu.

  6. Jeśli wybierzesz pozycję Percentyl, ograniczysz wartości kolumn do zakresu percentyla.

    Załóżmy na przykład, że chcesz zachować tylko wartości w zakresie 10–80 percentylu i zastąpić wszystkie inne. Wybierz opcję Percentyl, a następnie wpisz 10 dla wartości percentylu dla niższego progu i wpisz 80 dla wartości percentylu dla górnej wartości progowej.

    Zobacz sekcję dotyczącą percentyli , aby zapoznać się z przykładami użycia zakresów percentylu.

  7. Zdefiniuj wartość zastępczą.

    Liczby, które dokładnie pasują do określonych granic, są uważane za wewnątrz dozwolonego zakresu wartości, a tym samym nie są zastępowane. Wszystkie liczby, które wykraczają poza określony zakres, są zastępowane wartością zastępczą.

    • Wartość zastępcza dla szczytów: definiuje wartość, która ma zastąpić wszystkie wartości kolumn, które są większe niż określony próg.
    • Wartość zastępcza dla podpeaks: definiuje wartość, która ma być używana jako substytut dla wszystkich wartości kolumn, które są mniejsze niż określony próg.
    • Jeśli używasz opcji ClipPeaksAndSubpeaks , możesz określić oddzielne wartości zastępcze dla górnych i dolnych przyciętych wartości.

    Obsługiwane są następujące wartości zastępcze:

    • Próg: zamienia przycięte wartości na określoną wartość progową.

    • Średnia: zamienia przycięte wartości na średnią wartości kolumny. Średnia jest obliczana przed przycięciem wartości.

    • Mediana: zastępuje przycięte wartości medianą wartości kolumny. Mediana jest obliczana przed przycięciem wartości.

    • Brak. Zamienia przycięte wartości na brakującą (pustą).

  8. Dodaj kolumny wskaźników: wybierz tę opcję, jeśli chcesz wygenerować nową kolumnę, która informuje o tym, czy określona operacja przycinania została zastosowana do danych w tym wierszu. Ta opcja jest przydatna podczas testowania nowego zestawu wartości przycinania i podstawiania.

  9. Zastąp flagę: wskaż sposób generowania nowych wartości. Domyślnie wartości wycinków tworzy nową kolumnę ze szczytowymi wartościami przyciętymi do żądanego progu. Nowe wartości zastępują oryginalną kolumnę.

    Aby zachować oryginalną kolumnę i dodać nową kolumnę ze przyciętymi wartościami, usuń zaznaczenie tej opcji.

  10. Prześlij potok.

    Kliknij prawym przyciskiem myszy składnik Clip Values i wybierz pozycję Visualize (Wizualizacja ) lub wybierz składnik i przejdź do karty Dane wyjściowe w prawym panelu, kliknij ikonę histogramu w danych wyjściowych portów, aby przejrzeć wartości i upewnić się, że operacja przycinania spełnia Twoje oczekiwania.

Przykłady przycinania przy użyciu percentyli

Aby dowiedzieć się, jak działa przycinanie według percentyli, rozważ zestaw danych z 10 wierszami, które mają jedno wystąpienie każdego z wartości 1–10.

  • Jeśli używasz percentylu jako górnego progu, wartość 90. percentyla wynosi 90 procent wszystkich wartości w zestawie danych musi być mniejsza niż ta wartość.

  • Jeśli używasz percentylu jako niższego progu, wartość 10. percentyla wszystkich wartości w zestawie danych musi być mniejsza niż ta wartość.

  1. W obszarze Zestaw progów wybierz pozycję ClipPeaksAndSubPeaks.

  2. W obszarze Górny próg wybierz pozycję Percentyl, a w polu Liczba percentylu wpisz wartość 90.

  3. W polu Górna wartość zastępcza wybierz pozycję Brak wartości.

  4. W obszarze Niższy próg wybierz pozycję Percentyl, a w polu Liczba percentylu wpisz 10.

  5. W polu Niższa wartość zastępcza wybierz pozycję Brak wartości.

  6. Usuń zaznaczenie flagi Zastąp opcję i wybierz opcję Dodaj kolumnę wskaźnika.

Teraz wypróbuj ten sam potok przy użyciu wartości 60 co górny próg percentylu i 30 jako niższy próg percentylu i użyj wartości progowej jako wartości zastępczej. W poniższej tabeli porównaliśmy te dwa wyniki:

  1. Zastąp element brakującą wartością; Górny próg = 90; Niższy próg = 20

  2. Zastąp element progiem; Górny percentyl = 60; Niższy percentyl = 40

Oryginalne dane Zastąp element brakującą wartością Zastąp element progiem
1

2

3

4

5

6

7

8

9

10
Prawda

Prawda

3, FAŁSZ

4, FAŁSZ

5, FAŁSZ

6, FAŁSZ

7, FAŁSZ

8, FAŁSZ

9, FAŁSZ

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FAŁSZ

6, FAŁSZ

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.