Sdílet prostřednictvím


Oříznutí hodnot

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Rozpozná odlehlé hodnoty a klipy nebo nahradí jejich hodnoty.

Kategorie: Transformace dat / Škálování a redukce

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Oříznutí hodnot v Machine Learning Studiu (klasickém) identifikovat a volitelně nahradit datové hodnoty, které jsou nad nebo pod zadanou prahovou hodnotou. To je užitečné, když chcete odebrat odlehlé hodnoty nebo je nahradit střední hodnotou, konstantou nebo jinou substitute hodnotou.

Modul připojíte k datové sadě s čísly, která chcete oříznutí, zvolíte sloupce, se které chcete použít, a pak nastavíte prahovou hodnotu nebo rozsah hodnot a metodu nahrazení. Výstupem modulu mohou být buď pouze výsledky, nebo změněné hodnoty připojené k původní datové sadě.

Jak nakonfigurovat hodnoty klipů

Než začnete, identifikujte sloupce, které chcete oříznutí, a metodu, kterou chcete použít. Doporučujeme nejprve otestovat jakoukoli metodu oříznutí malé podmnožiny dat.

Modul použije stejná kritéria a metodu nahrazení pro všechny sloupce, které do výběru zahráte. Proto nezapomeňte vyloučit sloupce, které nechcete měnit.

Pokud u některých sloupců potřebujete použít metody oříznutí nebo jiná kritéria, musíte pro každou sadu podobných sloupců použít novou instanci oříznutí hodnot.

  1. Přidejte do experimentu modul Oříznutí hodnot a připojte ho k datové sadě, kterou chcete upravit. Tento modul najdete v části Transformace dat vkategorii Škálování a redukce .

  2. V seznamu sloupců pomocí selektoru sloupců vyberte sloupce, na které se použijí hodnoty oříznutí.

  3. V části Sada prahových hodnot vyberte z rozevíracího seznamu jednu z následujících možností. Tyto možnosti určují, jak nastavit horní a dolní hranice pro přijatelné hodnoty vs. hodnoty, které musí být oříznuty.

    • KlipPeaks: Při oříznutí hodnot podle špízů zadáte pouze horní hranici. Hodnoty větší než tato hodnota hranice se nahradí nebo odstraní.

    • ClipSubpeaks: Při oříznutí hodnot podle dílčích špízů zadáte pouze dolní hranici. Hodnoty, které jsou menší než tato hodnota hranice, se nahradí nebo odstraní.

    • ClipPeaksAndSubpeaks: Při oříznutí hodnot podle špízů a dílčích špízů můžete zadat horní i dolní hranice. Hodnoty, které jsou mimo tento rozsah, se nahradí nebo odstraní. Hodnoty, které odpovídají hodnotám hranic, se nezmění.

  4. V závislosti na výběru v předchozím kroku můžete nastavit následující prahové hodnoty:

    • Nižší prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipSubPeaks.
    • Horní prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipPeaks.
    • Prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipPeaksAndSubPeaks.

    Pro každý typ prahové hodnoty zvolte konstantu nebopercentil.

  5. Pokud vyberete Konstanta, zadejte do textového pole maximální nebo minimální hodnotu. Předpokládejme například, že víte, že se hodnota 999 použila jako zástupná hodnota. Jako horní prahovou hodnotu můžete zvolit Konstanta a do pole Konstantní hodnota horní prahové hodnoty zadejte 999.

  6. Pokud zvolíte Percentil, omezíte hodnoty sloupců na rozsah percentilu.

    Předpokládejme například, že chcete zachovat pouze hodnoty v rozsahu 10–80 percentilu a nahradit všechny ostatní. Zvolili byste Percentil a pak jako Hodnotu percentilu nižší prahové hodnoty zadejte 10 a jako Hodnotu percentilu horní prahové hodnoty zadejte 80.

    Některé příklady použití rozsahů percentilů najdete v části percentilů.

  7. Definujte náhradní hodnotu.

    Čísla, která přesně odpovídají právě zadaným hranicím, se považují za čísla, která jsou v povoleném rozsahu hodnot, a proto se nenahrazují ani odebraly. Všechna čísla, která spadají mimo zadaný rozsah, se nahradí nahraďte hodnotou.

    • Nahrazení hodnoty pro špičky: Definuje hodnotu, která má být nahrazena všemi hodnotami sloupců, které jsou větší než zadaná prahová hodnota.
    • Nahrazení hodnoty pro dílčí weby: Definuje hodnotu, která se má použít jako náhrada všech hodnot sloupců, které jsou nižší než zadaná prahová hodnota.
    • Pokud použijete možnost ClipPeaksAndSubpeaks , můžete zadat samostatné náhradní hodnoty pro horní a nižší oříznuté hodnoty.

    Podporují se následující náhradní hodnoty:

    • Prahová hodnota: Nahradí oříznuté hodnoty zadanou prahovou hodnotou.

    • Střední hodnota: Nahradí oříznuté hodnoty střední hodnotou hodnot sloupců. Průměr se vypočítá před oříznutím hodnot.

    • Medián: Nahradí oříznuté hodnoty mediánem hodnot sloupců. Medián se vypočítá před oříznutím hodnot.

    • Chybí. Nahradí oříznuté hodnoty chybějící (prázdnou) hodnotou.

  8. Přidat sloupce indikátorů: Tuto možnost vyberte, pokud chcete vygenerovat nový sloupec, který informuje, jestli se zadaná operace oříznutí použila na data v tomto řádku. Tato možnost je užitečná zejména při testování nové sady hodnot oříznutí a nahrazení.

  9. Příznak přepsání: Určete, jak chcete vygenerovat nové hodnoty. Ve výchozím nastavení funkce Oříznutí hodnot vytvoří nový sloupec s hodnotami ve špičce oříznutou na požadovanou prahovou hodnotu. Nové hodnoty přepíší původní sloupec.

    Pokud chcete zachovat původní sloupec a přidat nový sloupec s oříznutou hodnotou, zrušte výběr této možnosti.

  10. Spusťte experiment.

    Klikněte pravým tlačítkem na výstup modulu Oříznutí hodnot a výběrem vizualizovat zkontrolujte hodnoty a ujistěte se, že operace oříznutí splnila vaše očekávání.

Příklady

Informace o tom, jak se tento modul používá v experimentech strojového učení, najdete v Azure AI Gallery:

Oříznutí pomocí percentilů

Abyste pochopili, jak funguje oříznutí percentilem, zvažte datovou sadu s 10 řádky, které mají jednu instanci pro každou z hodnot 1–10.

  • Pokud jako horní prahovou hodnotu používáte percentil, musí být při hodnotě 90. percentilu 90 procent všech hodnot v datové sadě menší než tato hodnota.

  • Pokud jako dolní prahovou hodnotu používáte percentil, musí být při hodnotě 10. percentilu 10 procent všech hodnot v datové sadě menší než tato hodnota.

  1. V části Sada prahových hodnot zvolte ClipPeaksAndSubPeaks.

  2. V části Horní prahová hodnota zvolte Percentil a jako Percentil zadejte 90.

  3. Jako Horní nahradit hodnotu zvolte Chybějící hodnota.

  4. V části Dolní prahová hodnota zvolte Percentil a jako Percentil zadejte 10.

  5. V části Lower substitute value (Nižší hodnota nahrazení) zvolte Missing Value (Chybějící hodnota).

  6. Zrušte výběr možnosti Přepsat příznak a vyberte možnost Přidat sloupec indikátoru.

Teď vyzkoušejte stejný experiment s použitím hodnoty 60 jako horní prahové hodnoty percentilu a 30 jako dolní prahové hodnoty percentilu a jako nahrazování použijte prahovou hodnotu. Následující tabulka porovnává tyto dva výsledky:

  1. Nahraďte chybějícím. Horní prahová hodnota = 90; Nižší prahová hodnota = 10

  2. Nahraďte prahovou hodnotou. Horní percentil = 60; Nižší percentil = 30

Původní data Nahraďte chybějícím Nahraďte prahovou hodnotou.
1

2

3

4

5

6

7

8

9

10
TRUE

PRAVDA

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, PRAVDA

4, PRAVDA

4, PRAVDA

4, PRAVDA

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Technické poznámky

  • Hodnoty klipu lze použít pouze ve sloupcích obsahujících čísla nebo hodnoty data a času.

  • Pokud zahrnete sloupce s textovým nebo kategorií daty, sloupce se přeskočí.

  • Chybějící hodnoty jsou při výpočtu střední hodnoty nebo mediánu pro sloupec ignorovány.

  • Hodnoty klipů nepodporují ordinální data.

  • Chybějící hodnoty se nezmění při rozšiřování do výstupní datové sady. Sloupec, který označuje oříznuté hodnoty, vždy obsahuje hodnotu FALSE pro chybějící hodnoty.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Description
Přidat sloupce indikátorů TRUE NEBO FALSE Logická hodnota FALSE Zda má být přidán indikátor pro oříznutí hodnoty, je provedena
Konstantní hodnota pro nižší prahovou hodnotu Libovolný Float -1 Hodnota, pod kterou se podvrcholy oříznou
Konstantní hodnota pro horní prahovou hodnotu Libovolný Float 1 Hodnota, nad kterou budou oříznuty vrcholy
Konstantní hodnota dolní prahové hodnoty Libovolný Float -1 Hodnota, pod kterou se podvrcholy oříznou
Konstantní hodnota horní prahové hodnoty >= 1 Float 1 Hodnota, nad kterou se špičky oříznou
Seznam sloupců ColumnSelection Seznam sloupců pro klip
Nižší náhrada hodnoty Prahová hodnota

Mean

Medián

Nenašel
SubstituteValues Prahová hodnota Hodnota použitá pro vystřižení podšpičky
Nižší prahová hodnota Konstanta

Percentil
Režim prahové hodnoty Konstanta Hodnota, pod kterou budou dílčí vrcholy oříznuté
Příznak přepsání TRUE NEBO FALSE Logická hodnota TRUE Zda mají být sloupce s oříznutými daty přepsány sloupcem vstupních dat
Číslo percentilu pro nižší prahovou hodnotu [1; 99] Integer 1 Percentil, pod kterým se podvrcholy oříznou
Číslo percentilu pro horní prahovou hodnotu [1; 99] Integer 99 Percentil – číslo, nad kterým budou oříznuty špičky
Percentil – počet nižší prahové hodnoty [1; 99] Integer 1 Percentil, pod kterým jsou vyčíslení podšpičky oříznuty
Percentil – číslo horní prahové hodnoty [1; 99] Integer 99 Percentil – číslo, nad kterým jsou oříznuté špičky
Sada prahových hodnot ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Sada mezních hodnot ClipPeaks Určuje typ prahové hodnoty, která se má použít.
Náhrada hodnoty pro špičky Prahová hodnota

Mean

Medián

Nenašel
SubstituteValues Prahová hodnota Hodnota použitá během špičky oříznutí
Náhradní hodnota pro podšpičky Prahová hodnota

Mean

Medián

Nenašel
SubstituteValues Prahová hodnota Hodnota použitá během Vystřižení podšpičky
Prahová hodnota Konstanta

Percentil
Režim prahové hodnoty Konstanta Hodnota nad a pod kterou se špičky oříznou režimem
Horní náhrada hodnoty Prahová hodnota

Mean

Medián

Nenašel
Prahová hodnota Prahová hodnota Hodnota, která se používá pro ořezové špičky
Horní prahová hodnota Konstanta

Percentil
Režim prahové hodnoty Konstanta Hodnota, nad kterou budou hodnoty v režimu oříznuté

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada s oříznutými sloupci

Výjimky

Výjimka Description
Chyba 0011 K výjimce dojde, pokud se předaný argument sady sloupců nevztahuje na žádný sloupec DataSet.
Chyba 0017 K výjimce dojde v případě, že jeden nebo více zadaných sloupců má nepodporovaný typ aktuálním modulem.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Škálování a zmenšení
Seznam modulů a-Z