Waarden inperken

In dit artikel wordt een onderdeel van de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik het onderdeel Clipwaarden om gegevenswaarden boven of onder een opgegeven drempelwaarde te identificeren en eventueel te vervangen door een gemiddelde, een constante of een andere vervangende waarde.

U verbindt het onderdeel met een gegevensset met de getallen die u wilt knippen, kiest de kolommen waarmee u wilt werken en stelt vervolgens een drempelwaarde of bereik met waarden en een vervangingsmethode in. Het onderdeel kan alleen de resultaten uitvoeren of de gewijzigde waarden die aan de oorspronkelijke gegevensset zijn toegevoegd.

Clipwaarden configureren

Voordat u begint, identificeert u de kolommen die u wilt knippen en de methode die u wilt gebruiken. U wordt aangeraden eerst een knipmethode te testen op een kleine subset met gegevens.

Het onderdeel past dezelfde criteria en vervangingsmethode toe op alle kolommen die u in de selectie opneemt. Zorg er daarom voor dat u kolommen uitsluit die u niet wilt wijzigen.

Als u knipmethoden of andere criteria wilt toepassen op sommige kolommen, moet u een nieuw exemplaar van Clipwaarden gebruiken voor elke set vergelijkbare kolommen.

  1. Voeg het onderdeel Waarden knippen toe aan uw pijplijn en verbind het met de gegevensset die u wilt wijzigen. U vindt dit onderdeel onder Gegevenstransformatie in de categorie Schalen en verminderen .

  2. Gebruik in Lijst met kolommen de kolomkiezer om de kolommen te kiezen waarop Clipwaarden worden toegepast.

  3. Kies voor Set drempelwaarden een van de volgende opties in de vervolgkeuzelijst. Deze opties bepalen hoe u de boven- en ondergrenzen instelt voor acceptabele waarden versus waarden die moeten worden afgekapt.

    • ClipPeaks: wanneer u waarden op pieken clipt, geeft u alleen een bovengrens op. Waarden die groter zijn dan die grenswaarde worden vervangen.

    • ClipSubpeaks: wanneer u waarden afknipt op subpeaks, geeft u alleen een ondergrens op. Waarden die kleiner zijn dan die grenswaarde, worden vervangen.

    • ClipPeaksAndSubpeaks: wanneer u waarden clipt op pieken en subpeaks, kunt u zowel de boven- als de ondergrens opgeven. Waarden die zich buiten dat bereik bevinden, worden vervangen. Waarden die overeenkomen met de grenswaarden worden niet gewijzigd.

  4. Afhankelijk van uw selectie in de vorige stap, kunt u de volgende drempelwaarden instellen:

    • Lagere drempelwaarde: alleen weergegeven als u ClipSubPeaks kiest
    • Bovenste drempelwaarde: alleen weergegeven als u ClipPeaks kiest
    • Drempelwaarde: alleen weergegeven als u ClipPeaksAndSubPeaks kiest

    Kies constant ofpercentiel voor elk type drempelwaarde.

  5. Als u Constant selecteert, typt u de maximum- of minimumwaarde in het tekstvak. Stel dat u weet dat de waarde 999 als tijdelijke aanduiding is gebruikt. U kunt Constant kiezen voor de bovenste drempelwaarde en 999 typen bij Constante waarde voor de bovenste drempelwaarde.

  6. Als u Percentiel kiest, beperkt u de kolomwaarden tot een percentielbereik.

    Stel dat u alleen de waarden in het percentielbereik van 10-80 wilt behouden en alle andere waarden wilt vervangen. U kiest Percentiel en typt vervolgens 10 voor Percentielwaarde voor een lagere drempelwaarde en typt u 80 voor Percentielwaarde voor de bovenste drempelwaarde.

    Zie de sectie over percentielen voor enkele voorbeelden van het gebruik van percentielbereiken.

  7. Definieer een vervangende waarde.

    Getallen die exact overeenkomen met de grenzen die u hebt opgegeven, worden beschouwd als binnen het toegestane waardenbereik en worden dus niet vervangen. Alle getallen die buiten het opgegeven bereik vallen, worden vervangen door de vervangende waarde.

    • Vervangende waarde voor pieken: definieert de waarde die moet worden vervangen door alle kolomwaarden die groter zijn dan de opgegeven drempelwaarde.
    • Vervangende waarde voor subpeaks: definieert de waarde die moet worden gebruikt als vervanging voor alle kolomwaarden die kleiner zijn dan de opgegeven drempelwaarde.
    • Als u de optie ClipPeaksAndSubpeaks gebruikt, kunt u afzonderlijke vervangingswaarden opgeven voor de bovenste en onderste bijgesneden waarden.

    De volgende vervangende waarden worden ondersteund:

    • Drempelwaarde: hiermee worden geknipte waarden vervangen door de opgegeven drempelwaarde.

    • Gemiddelde: vervangt afgeknipte waarden door het gemiddelde van de kolomwaarden. Het gemiddelde wordt berekend voordat waarden worden afgekapt.

    • Mediaan: vervangt afgeknipte waarden door de mediaan van de kolomwaarden. De mediaan wordt berekend voordat waarden worden afgekapt.

    • Ontbreekt. Hiermee worden geknipte waarden vervangen door de ontbrekende (lege) waarde.

  8. Indicatorkolommen toevoegen: selecteer deze optie als u een nieuwe kolom wilt genereren die aangeeft of de opgegeven knipbewerking is toegepast op de gegevens in die rij. Deze optie is handig wanneer u een nieuwe set knip- en vervangingswaarden test.

  9. Vlag overschrijven: geef aan hoe de nieuwe waarden moeten worden gegenereerd. Met Clipwaarden wordt standaard een nieuwe kolom gemaakt met de piekwaarden die zijn afgekapt tot de gewenste drempelwaarde. Nieuwe waarden overschrijven de oorspronkelijke kolom.

    Als u de oorspronkelijke kolom wilt behouden en een nieuwe kolom met de geknipte waarden wilt toevoegen, schakelt u deze optie uit.

  10. Verzend de pijplijn.

    Klik met de rechtermuisknop op het onderdeel Waarden knippen en selecteer Visualiseren of selecteer het onderdeel en ga naar het tabblad Uitvoer in het rechterdeelvenster, klik op het histogrampictogram in de poortuitvoer om de waarden te controleren en ervoor te zorgen dat de knipbewerking aan uw verwachtingen voldoet.

Voorbeelden voor knippen met percentielen

Als u wilt begrijpen hoe knippen per percentiel werkt, kunt u een gegevensset met 10 rijen gebruiken, die elk één exemplaar van de waarden 1-10 hebben.

  • Als u percentiel als de bovenste drempelwaarde gebruikt, moet bij de waarde voor het 90e percentiel 90 procent van alle waarden in de gegevensset kleiner zijn dan die waarde.

  • Als u percentiel als lagere drempelwaarde gebruikt, moet bij de waarde voor het 10e percentiel 10 procent van alle waarden in de gegevensset kleiner zijn dan die waarde.

  1. Voor Set drempelwaarden kiest u ClipPeaksAndSubPeaks.

  2. Bij Bovenste drempelwaarde kiest u Percentiel en bij Percentielnummer typt u 90.

  3. Kies ontbrekende waarde voor bovenste vervangende waarde.

  4. Bij Lagere drempelwaarde kiest u Percentiel en bij Percentielnummer typt u 10.

  5. Kies Ontbrekende waarde voor Lagere vervangingswaarde.

  6. Hef de selectie van de optie Vlag overschrijven op en selecteer de optie Indicatorkolom toevoegen.

Probeer nu dezelfde pijplijn met 60 als de drempelwaarde voor het bovenste percentiel en 30 als de drempelwaarde voor het laagste percentiel en gebruik de drempelwaarde als vervangingswaarde. In de volgende tabel worden deze twee resultaten vergeleken:

  1. Vervang door ontbrekend; Bovenste drempelwaarde = 90; Lagere drempelwaarde = 20

  2. Vervangen door drempelwaarde; Bovenste percentiel = 60; Lager percentiel = 40

Oorspronkelijke gegevens Vervangen door ontbrekende Vervangen door drempelwaarde
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, ONWAAR

4, ONWAAR

5, ONWAAR

6, ONWAAR

7, ONWAAR

8, ONWAAR

9, ONWAAR

TRUE
4, WAAR

4, WAAR

4, WAAR

4, WAAR

5, ONWAAR

6, ONWAAR

7, WAAR

7, WAAR

7, WAAR

7, WAAR

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.