Obcinanie wartości
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Wykrywa odejścia i klipy lub zastępuje ich wartości
Kategoria: Przekształcanie/skalowanie i zmniejszanie danych
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Clip Values w programie Machine Learning Studio (wersja klasyczna) do identyfikowania i opcjonalnie zastępowania wartości danych, które są powyżej lub poniżej określonego progu. Jest to przydatne, gdy chcesz usunąć wartości odstających lub zastąpić je średnią, stałą lub inną wartością podstawioną.
Połącz moduł z zestawem danych, który zawiera liczby, które chcesz przycinać, wybierz kolumny do pracy, a następnie ustaw próg lub zakres wartości oraz metodę zastępczą. Moduł może wyprowadzać tylko wyniki lub zmienione wartości dołączone do oryginalnego zestawu danych.
Jak skonfigurować wartości clip
Przed rozpoczęciem zidentyfikuj kolumny, które chcesz przycinać, oraz metodę do użycia. Zalecamy przetestowanie dowolnej metody przycinania na małym podzestawie danych.
Moduł stosuje te same kryteria i metodę zastępczą do wszystkich kolumn, które są dołączane do zaznaczenia. Dlatego pamiętaj, aby wykluczyć kolumny, których nie chcesz zmieniać.
Jeśli musisz zastosować metody przycinania lub inne kryteria do niektórych kolumn, musisz użyć nowego wystąpienia wartości clip dla każdego zestawu podobnych kolumn.
Dodaj moduł Clip Values (Obcięcie wartości) do eksperymentu i połącz go z zestawem danych, który chcesz zmodyfikować. Ten moduł można znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i Redukcja.
Na liście kolumn użyj selektora kolumn, aby wybrać kolumny , do których zostaną zastosowane wartości clip.
W przypadku ustawienia Zestaw progów wybierz jedną z następujących opcji z listy rozwijanej. Te opcje określają sposób ustawienia górnych i dolnych granic dopuszczalnych wartości względem wartości, które muszą być obcinane.
ClipPeaks: podczas obcinania wartości według wartości szczytowych należy określić tylko górną granicę. Wartości większe niż ta wartość granicy są zastępowane lub usuwane.
ClipSubpeaks: podczas obcinania wartości według podwyżek należy określić tylko dolną granicę. Wartości mniejsze niż ta wartość granicy są zastępowane lub usuwane.
ClipPeaksAndSubpeaks: podczas obcinania wartości według wartości szczytowych i podwyżek można określić zarówno górną, jak i dolną granicę. Wartości spoza tego zakresu są zastępowane lub usuwane. Wartości zgodne z wartościami granicy nie są zmieniane.
W zależności od wyboru w poprzednim kroku można ustawić następujące wartości progowe:
- Dolny próg: wyświetlany tylko w przypadku wybrania opcji ClipSubPeaks
- Górny próg: wyświetlany tylko w przypadku wybrania clippeaks
- Próg: wyświetlany tylko w przypadku wybrania opcji ClipPeaksAndSubPeaks
Dla każdego typu progu wybierz wartość Stała lubPercentyl.
Jeśli wybierzesz pozycję Stała, wpisz wartość maksymalną lub minimalną w polu tekstowym. Załóżmy na przykład, że wiesz, że wartość 999 została użyta jako wartość symbolu zastępczego. Możesz wybrać stałą dla górnego progu i wpisać 999 w stałej wartości górnego progu.
Jeśli wybierzesz pozycję Percentyl, ograniczysz wartości kolumn do zakresu percentyla.
Załóżmy na przykład, że chcesz zachować tylko wartości z zakresu od 10 do 80 percentyla i zastąpić wszystkie pozostałe. Wybierz pozycję Percentyl, a następnie wpisz wartość 10 dla wartości Percentyl niższego progu i wpisz wartość 80 dla wartości Percentyl górnego progu.
Zobacz sekcję na temat percentyli, aby uzyskać przykłady użycia zakresów percentyla.
Zdefiniuj wartość podstawioną.
Liczby, które dokładnie pasują do określonych właśnie granic, są uznawane za wewnątrz dozwolonego zakresu wartości i w związku z tym nie są zastępowane ani usuwane. Wszystkie liczby spoza określonego zakresu są zastępowane wartością podstawioną.
- Zamień wartość na wartości szczytowe: definiuje wartość, która ma zastąpić wszystkie wartości kolumn, które są większe niż określony próg.
- Zastąp wartość dla podwymian: definiuje wartość do użycia jako zamiennik wszystkich wartości kolumn, które są mniejsze niż określony próg.
- Jeśli używasz opcji ClipPeaksAndSubpeaks , możesz określić oddzielne wartości zastępcze dla górnych i dolnych wartości obciętych.
Obsługiwane są następujące wartości zastępcze:
Próg: zastępuje obcinane wartości określoną wartością progową.
Średnia: zastępuje obcinane wartości średnią wartości kolumn. Średnia jest obliczana przed obcięciem wartości.
Mediana: zastępuje wartości obcinane medianą wartości kolumn. Mediana jest obliczana przed obcięciem wartości.
Brak. Zastępuje obcinane wartości brakującą (pustą) wartością.
Dodaj kolumny wskaźników: wybierz tę opcję, jeśli chcesz wygenerować nową kolumnę, która informuje o tym, czy określona operacja przycinania została zastosowana do danych w tym wierszu. Ta opcja jest szczególnie przydatna podczas testowania nowego zestawu wartości przycinania i podstawienia.
Flaga zastępowania: wskazuje sposób generowania nowych wartości. Domyślnie clip values tworzy nową kolumnę z wartościami szczytowych obciętymi do żądanego progu. Nowe wartości zastępują oryginalną kolumnę.
Aby zachować oryginalną kolumnę i dodać nową kolumnę ze obciętymi wartościami, usuń zaznaczenie tej opcji.
Uruchom eksperyment.
Kliknij prawym przyciskiem myszy dane wyjściowe modułu Clip Values (Obcięcie wartości) i wybierz pozycję Visualize (Wizualizacja), aby przejrzeć wartości i upewnić się, że operacja przycinania spełnia twoje oczekiwania.
Przykłady
Aby zobaczyć, jak ten moduł jest używany w eksperymentach uczenia maszynowego, zobacz Azure AI Gallery:
- Odejścia od lasu: w tym przykładzie z zastosowaniem EdX w nauce o danych pokazano metody przycinania przy użyciu przykładowego zestawu danych Forest Fires.
Przycinanie przy użyciu percentylów
Aby zrozumieć, jak działa przycinanie według percentylów, rozważ zestaw danych z 10 wierszami, które mają jedno wystąpienie z wartościami 1–10.
Jeśli używasz percentyla jako górnego progu, przy wartości 90. percentyla 90% wszystkich wartości w zestawie danych musi być mniejsze niż ta wartość.
Jeśli używasz percentyla jako dolnego progu, przy wartości 10. percentyla 10% wszystkich wartości w zestawie danych musi być mniejsze niż ta wartość.
W przypadku ustawienia Zestaw progów wybierz pozycję ClipPeaksAndSubPeaks.
W przypadku opcji Górny prógwybierz pozycję Percentyl, a w przypadku wartości Percentyl wpisz wartość 90.
W przypadku opcji Upper substitute value (Górna wartość podstawna) wybierz pozycję Missing Value (Brak wartości).
W przypadku opcji Dolny próg wybierz pozycję Percentyl, a w przypadku wartości Percentyl wpisz wartość 10.
W przypadku wartości podstawionej Dolna wybierz pozycję Brak wartości.
Usuń zaznaczenie flagi Zastąp i wybierz opcję Dodaj kolumnę wskaźnika.
Teraz wypróbuj ten sam eksperyment, używając wartości 60 jako górnego progu percentyla i 30 jako dolnego progu percentyla, a następnie użyj wartości progowej jako wartości zastępczej. W poniższej tabeli porównano te dwa wyniki:
Zamień na brakujące; Górny próg = 90; Dolny próg = 10
Zastąp wartością progową; Górny percentyl = 60; Niższy percentyl = 30
Oryginalne dane | Zamień na brakujące | Zastąp wartością progową |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
Prawda Prawda 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Uwagi techniczne
Wartości clip można używać tylko w kolumnach zawierających liczby lub wartości daty/czasu.
Jeśli dołączysz kolumny, które zawierają tekst lub dane kategorii, te kolumny zostaną pominięte.
Brakujące wartości są ignorowane, gdy wartość średniej lub mediany jest obliczana dla kolumny.
Wartości clip nie obsługują danych porządkowych.
Brakujące wartości nie są zmieniane, gdy są propagowane do wyjściowego zestawu danych. Kolumna wskazująca obciętych wartości zawsze zawiera wartość FALSE dla brakujących wartości.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Dodawanie kolumn wskaźników | PRAWDA/FAŁSZ | Wartość logiczna | FALSE | Czy dodać wskaźnik obcinania wartości jest wykonywane |
Wartość stała dla dolnego progu | dowolny | Float | -1 | Wartość, poniżej której zostaną obcięcie podwymian |
Stała wartość górnego progu | dowolny | Float | 1 | Wartość, nad którą zostaną obcięty wartości szczytowe |
Stała wartość dolnego progu | dowolny | Float | -1 | Wartość, poniżej której są obcinane podgrzybki |
Stała wartość górnego progu | >= 1 | Float | 1 | Wartość, nad którą są obcinane wartości szczytowe |
Lista kolumn | ColumnSelection | Lista kolumn do przycinania | ||
Dolna wartość podstawiona | Próg Średnia Mediana Brakuje |
SubstituteValues | Próg | Wartość używana do przycinania podwymian |
Dolny próg | Stała Percentyl |
Tryb progu | Stała | Wartość, poniżej której zostanie obcięty tryb podwymian |
Flaga zastępowania | PRAWDA/FAŁSZ | Wartość logiczna | TRUE | Czy obcinane kolumny danych muszą zastępować kolumny danych wejściowych |
Percentyl dla niższego progu | [1;99] | Liczba całkowita | 1 | Percentyl, poniżej którego zostaną obcięcie podwymian |
Numer percentyla dla górnego progu | [1;99] | Liczba całkowita | 99 | Percentyl, powyżej którego wartości szczytowe zostaną obcięte |
Percentyl niższego progu | [1;99] | Liczba całkowita | 1 | Percentyl, poniżej którego są obcinane podwyjazy |
Percentyl górnego progu | [1;99] | Liczba całkowita | 99 | Percentyl, powyżej którego wartości szczytowe są obcinane |
Zestaw progów | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Zestaw progów | ClipPeaks | Określa typ progu do użycia |
Podstaw wartość dla wartości szczytowych | Próg Średnia Mediana Brakuje |
SubstituteValues | Próg | Wartość używana podczas obcinania szczytów |
Podstaw wartość dla podwymian | Próg Średnia Mediana Brakuje |
SubstituteValues | Próg | Wartość używana podczas przycinania podwymian |
Próg | Stała Percentyl |
Tryb progu | Stała | Wartość powyżej i poniżej której wartości szczytowe będą w trybie obcinania |
Górna wartość podstawiona | Próg Średnia Mediana Brakuje |
Próg | Próg | Wartość używana do obcinania wartości szczytowych |
Górny próg | Stała Percentyl |
Tryb progu | Stała | Wartość, nad którą wartości szczytowe będą w trybie obcinania |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Zestaw danych ze obciętymi kolumnami |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0011 | Wyjątek występuje, jeśli przekazany argument zestawu kolumn nie ma zastosowania do żadnej kolumny zestawu danych. |
Błąd 0017 | Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).