Delen via


Waarden inperken

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Detecteert uitbijten en fragmenten of vervangt de waarden

Categorie: Gegevenstransformatie/ schalen en verminderen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Clip Values in Machine Learning Studio (klassiek) gebruikt om gegevenswaarden boven of onder een opgegeven drempelwaarde te identificeren en optioneel te vervangen. Dit is handig als u uitbijten wilt verwijderen of wilt vervangen door een gemiddelde, constante of andere vervangingswaarde.

U verbindt de module met een gegevensset met de getallen die u wilt knippen, kiest de kolommen waarmee u wilt werken en stelt vervolgens een drempelwaarde of bereik van waarden in en een vervangende methode. De module kan alleen de resultaten of de gewijzigde waarden die aan de oorspronkelijke gegevensset zijn toegevoegd, als uitvoer geven.

Clipwaarden configureren

Voordat u begint, identificeert u de kolommen die u wilt clipen en de methode die u wilt gebruiken. U wordt aangeraden eerst een knipmethode voor een kleine subset gegevens te testen.

De module past dezelfde criteria en vervangingsmethode toe op alle kolommen die u in de selectie op neem. Sluit daarom kolommen uit die u niet wilt wijzigen.

Als u knipmethoden of verschillende criteria wilt toepassen op bepaalde kolommen, moet u een nieuw exemplaar van Klemwaarden gebruiken voor elke set vergelijkbare kolommen.

  1. Voeg de module Clip Values toe aan uw experiment en koppel deze aan de gegevensset die u wilt wijzigen. U vindt deze module onder Gegevenstransformatie in de categorie Schalen en verminderen.

  2. Gebruik in Lijst met kolommen de kolom selector om de kolommen te kiezen waarop clipwaarden worden toegepast.

  3. Kies voor Set drempelwaarden een van de volgende opties in de vervolgkeuzelijst. Deze opties bepalen hoe u de boven- en ondergrenzen in stelt voor acceptabele waarden versus waarden die moeten worden afgekapt.

    • ClipPeaks: wanneer u waarden op pieken clipt, geeft u alleen een bovengrens op. Waarden die groter zijn dan die grenswaarde worden vervangen of verwijderd.

    • ClipSubpeaks: wanneer u waarden op subpieken clipt, geeft u alleen een ondergrens op. Waarden die kleiner zijn dan die grenswaarde worden vervangen of verwijderd.

    • ClipPeaksAndSubpeaks: wanneer u waarden bijsnijdt op pieken en subpieken, kunt u zowel de boven- als ondergrenzen opgeven. Waarden buiten dat bereik worden vervangen of verwijderd. Waarden die overeenkomen met de grenswaarden worden niet gewijzigd.

  4. Afhankelijk van uw selectie in de vorige stap, kunt u de volgende drempelwaarden instellen:

    • Lagere drempelwaarde: wordt alleen weergegeven als u ClipSubPeaks kiest
    • Bovenste drempelwaarde: alleen weergegeven als u ClipPeaks kiest
    • Drempelwaarde: wordt alleen weergegeven als u ClipPeaksAndSubPeaks kiest

    Kies voor elk drempeltype Constant ofPercentiel.

  5. Als u Constant selecteert, typt u de maximum- of minimumwaarde in het tekstvak. Stel dat u weet dat de waarde 999 is gebruikt als tijdelijke aanduiding. U kunt Constant kiezen voor de bovenste drempelwaarde en 999 typen in Constante waarde van de bovenste drempelwaarde.

  6. Als u Percentiel kiest, beperkt u de kolomwaarden tot een percentielbereik.

    Stel dat u alleen de waarden in het bereik van 10-80 percentiel wilt behouden en alle andere wilt vervangen. U kiest Percentiel en typt vervolgens 10 voor Percentielwaarde van lagere drempelwaarde en typt 80 als Percentielwaarde van de bovenste drempelwaarde.

    Zie de sectie over percentielen voor enkele voorbeelden van het gebruik van percentielbereiken.

  7. Definieer een vervangingswaarde.

    Getallen die exact overeenkomen met de grenzen die u zojuist hebt opgegeven, worden beschouwd als binnen het toegestane waardenbereik en worden dus niet vervangen of verwijderd. Alle getallen die buiten het opgegeven bereik vallen, worden vervangen door de vervangingswaarde.

    • Vervangingswaarde voor pieken: definieert de waarde die moet worden vervangen door alle kolomwaarden die groter zijn dan de opgegeven drempelwaarde.
    • Substitute value for subpeaks: definieert de waarde die moet worden gebruikt als vervanging voor alle kolomwaarden die kleiner zijn dan de opgegeven drempelwaarde.
    • Als u de optie ClipPeaksAndSubpeaks gebruikt, kunt u afzonderlijke vervangingswaarden opgeven voor de bovenste en onderste bijgesneden waarden.

    De volgende vervangingswaarden worden ondersteund:

    • Drempelwaarde: vervangt afgekapte waarden door de opgegeven drempelwaarde.

    • Gemiddelde: vervangt afgekapte waarden door het gemiddelde van de kolomwaarden. Het gemiddelde wordt berekend voordat waarden worden afgekapt.

    • Mediaan: vervangt afgekapte waarden door de mediaan van de kolomwaarden. De mediaan wordt berekend voordat waarden worden bijgesneden.

    • Ontbreekt. Vervangt afgekapte waarden door de ontbrekende (lege) waarde.

  8. Indicatorkolommen toevoegen: selecteer deze optie als u een nieuwe kolom wilt genereren die aangeeft of de opgegeven knipbewerking al dan niet is toegepast op de gegevens in die rij. Deze optie is vooral handig wanneer u een nieuwe set knip- en vervangingswaarden test.

  9. Vlag overschrijven: geef aan hoe u wilt dat de nieuwe waarden worden gegenereerd. Standaard wordt met Clip Values een nieuwe kolom gemaakt met de piekwaarden die zijn afgekapt tot de gewenste drempelwaarde. Nieuwe waarden overschrijven de oorspronkelijke kolom.

    Als u de oorspronkelijke kolom wilt behouden en een nieuwe kolom wilt toevoegen met de afgekapte waarden, moet u de selectie van deze optie ongedaan maken.

  10. Voer het experiment uit.

    Klik met de rechtermuisknop op de uitvoer van de module Clip Values en selecteer Visualize om de waarden te controleren en te controleren of de knipbewerking aan uw verwachtingen heeft voldaan.

Voorbeelden

Als u wilt zien hoe deze module wordt gebruikt in machine learning experimenten, gaat u naar de Azure AI Gallery:

  • Uitbijten van forestbranden: In dit voorbeeld van het EdX-co-gebruik in gegevenswetenschap worden knipmethoden gedemonstreerd met behulp van de voorbeeldgegevensset Forest Fires.

Knippen met percentielen

Als u wilt weten hoe het afkapen van percentielen werkt, kunt u een gegevensset met 10 rijen overwegen, die één exemplaar hebben van elk van de waarden 1-10.

  • Als u percentiel als de bovenste drempelwaarde gebruikt, moet 90 procent van alle waarden in de gegevensset kleiner zijn dan die waarde bij de waarde voor het 90e percentiel.

  • Als u percentiel als lagere drempelwaarde gebruikt, moet bij de waarde voor het 10e percentiel 10 procent van alle waarden in de gegevensset kleiner zijn dan die waarde.

  1. Kies voor Set drempelwaardenClipPeaksAndSubPeaks.

  2. Kies voor Bovenste drempelwaardePercentiel en bij Percentielnummer typt u 90.

  3. Kies Ontbrekende waarde bij Bovenvervangende waarde.

  4. Voor Lagere drempel kiest u Percentiel en bij Percentielnummer typt u 10.

  5. Kies Ontbrekende waarde bij Lagerevervangingswaarde.

  6. Deselecteer de optie Vlag overschrijven en selecteer de optie Indicatorkolom toevoegen.

Probeer nu hetzelfde experiment met 60 als de drempelwaarde voor het bovenste percentiel en 30 als de drempelwaarde voor het lagere percentiel en gebruik de drempelwaarde als vervangingswaarde. In de volgende tabel worden deze twee resultaten vergeleken:

  1. Vervang door ontbrekende; Bovendrempelwaarde = 90; Lagere drempelwaarde = 10

  2. Vervangen door drempelwaarde; Bovenste percentiel = 60; Lager percentiel = 30

Oorspronkelijke gegevens Vervangen door ontbrekende Vervangen door drempelwaarde
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Technische opmerkingen

  • U kunt Klemwaarden alleen gebruiken voor kolommen met getallen of datum-/tijdwaarden.

  • Als u kolommen met tekst of categorische gegevens opslaat, worden de kolommen overgeslagen.

  • Ontbrekende waarden worden genegeerd wanneer de gemiddelde of mediaanwaarde wordt berekend voor een kolom.

  • Clip Values biedt geen ondersteuning voor ordinale gegevens.

  • Ontbrekende waarden worden niet gewijzigd wanneer ze worden doorgegeven aan de uitvoerset. De kolom die afgesneden waarden aangeeft, bevat altijd FALSE voor ontbrekende waarden.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoerset

Moduleparameters

Name Bereik Type Standaard Beschrijving
Indicatorkolommen toevoegen TRUE/FALSE Booleaans FALSE Of u een indicator wilt toevoegen voor het afkapen van een waarde
Constante waarde voor lagere drempelwaarde alle Float -1 Waarde waaronder de subsubs worden afgekapt
Constante waarde voor bovenste drempelwaarde alle Float 1 Waarde waarboven de pieken worden geknipt
Constante waarde van lagere drempelwaarde alle Float -1 Waarde waaronder de subsubs worden afgekapt
Constante waarde van bovendrempelwaarde >= 1 Float 1 Waarde waarboven de pieken worden afgekapt
Lijst met kolommen ColumnSelection Lijst met kolommen die moeten worden geknipt
Lagere vervangingswaarde Drempelwaarde

Gemiddeld

Mediaan

Ontbrekende
SubstituteValues Drempelwaarde De waarde die wordt gebruikt voor het knippen van subsubsubs
Lagere drempelwaarde Constant

Percentiel
Drempelwaardemodus Constant Waarde waaronder de subsubs worden afgekapt
Vlag overschrijven TRUE/FALSE Booleaans TRUE Of kolom(en) met geknipte gegevens invoergegevenskolom(en) moeten overschrijven
Percentielnummer voor lagere drempelwaarde [1;99] Geheel getal 1 Percentielnummer waaronder de subsubs worden afgekapt
Percentielnummer voor bovenste drempelwaarde [1;99] Geheel getal 99 Percentielnummer waarboven de pieken worden afgekapt
Percentielaantal van lagere drempelwaarde [1;99] Geheel getal 1 Percentielnummer waaronder de subsubs worden afgekapt
Percentielaantal van bovenste drempelwaarde [1;99] Geheel getal 99 Percentielnummer waarboven de pieken worden afgekapt
Set drempelwaarden ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Drempelwaarde instellen ClipPeaks Hiermee geeft u het type drempelwaarde op dat moet worden gebruikt
Vervangingswaarde voor pieken Drempelwaarde

Gemiddeld

Mediaan

Ontbrekende
SubstituteValues Drempelwaarde De waarde die wordt gebruikt tijdens het knippen van pieken
Subspresen vervangen door de waarde Drempelwaarde

Gemiddeld

Mediaan

Ontbrekende
SubstituteValues Drempelwaarde De waarde die wordt gebruikt tijdens het knippen van subsubs
Drempelwaarde Constant

Percentiel
Drempelwaardemodus Constant Waarde boven en onder waar de pieken worden afgekapt
Boven vervangende waarde Drempelwaarde

Gemiddeld

Mediaan

Ontbrekende
Drempelwaarde Drempelwaarde De waarde die wordt gebruikt voor het knippen van pieken
Bovenste drempelwaarde Constant

Percentiel
Drempelwaardemodus Constant Waarde waarboven de pieken worden afgekapt

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten Gegevenstabel Gegevensset met geknipte kolommen

Uitzonderingen

Uitzondering Description
Fout 0011 Er treedt een uitzondering op als het doorgegeven argument voor de kolomset niet van toepassing is op een van de kolommen van de gegevensset.
Fout 0017 Uitzondering treedt op als voor een of meer opgegeven kolommen type niet wordt ondersteund door de huidige module.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Schalen en verminderen
Lijst met A-Z-modules