Waarden inperken
In dit artikel wordt een onderdeel van Azure Machine Learning Designer beschreven.
Gebruik het onderdeel Clipwaarden om gegevenswaarden te identificeren en eventueel te vervangen die boven of onder een opgegeven drempelwaarde liggen met een gemiddelde, een constante of een andere vervangende waarde.
U verbindt het onderdeel met een gegevensset met de getallen die u wilt knippen, kies de kolommen waarmee u wilt werken en stel vervolgens een drempelwaarde of bereik met waarden in en een vervangingsmethode. Het onderdeel kan alleen de resultaten uitvoeren of de gewijzigde waarden die zijn toegevoegd aan de oorspronkelijke gegevensset.
Clipwaarden configureren
Voordat u begint, identificeert u de kolommen die u wilt knippen en de methode die u wilt gebruiken. U wordt aangeraden eerst een knipmethode te testen op een kleine subset met gegevens.
Het onderdeel past dezelfde criteria en vervangingsmethode toe op alle kolommen die u in de selectie opneemt. Zorg er daarom voor dat u kolommen uitsluit die u niet wilt wijzigen.
Als u knipmethoden of andere criteria wilt toepassen op sommige kolommen, moet u een nieuw exemplaar van Clipwaarden gebruiken voor elke set vergelijkbare kolommen.
Voeg het onderdeel Clipwaarden toe aan uw pijplijn en verbind het met de gegevensset die u wilt wijzigen. U vindt dit onderdeel onder Gegevenstransformatie in de categorie Schaal en Reductie .
Gebruik in De lijst met kolommen de kolomkiezer om de kolommen te kiezen waarop Clipwaarden worden toegepast.
Kies voor Set drempelwaarden een van de volgende opties in de vervolgkeuzelijst. Deze opties bepalen hoe u de boven- en ondergrenzen instelt voor acceptabele waarden versus waarden die moeten worden geknipt.
ClipPeaks: Wanneer u waarden op pieken clipt, geeft u alleen een bovengrens op. Waarden die groter zijn dan die grenswaarde, worden vervangen.
ClipSubpeaks: Wanneer u waarden op subpeaks clipt, geeft u alleen een ondergrens op. Waarden die kleiner zijn dan die grenswaarde, worden vervangen.
ClipPeaksAndSubpeaks: Wanneer u waarden op pieken en subpeaks clipeert, kunt u zowel de boven- als ondergrenzen opgeven. Waarden die buiten dat bereik vallen, worden vervangen. Waarden die overeenkomen met de grenswaarden, worden niet gewijzigd.
Afhankelijk van uw selectie in de vorige stap kunt u de volgende drempelwaarden instellen:
- Lagere drempelwaarde: alleen weergegeven als u ClipSubPeaks kiest
- Bovenste drempelwaarde: alleen weergegeven als u ClipPeaks kiest
- Drempelwaarde: alleen weergegeven als u ClipPeaksAndSubPeaks kiest
Kies voor elk type drempelwaarde de optie Constant of Percentiel.
Als u Constant selecteert, typt u de maximum- of minimumwaarde in het tekstvak. Stel dat u weet dat de waarde 999 is gebruikt als tijdelijke aanduiding. U kunt Constant kiezen voor de bovenste drempelwaarde en typ 999 in constante waarde voor de bovenste drempelwaarde.
Als u Percentiel kiest, beperkt u de kolomwaarden tot een percentielbereik.
Stel dat u alleen de waarden in het bereik van 10-80 percentiel wilt behouden en alle andere waarden wilt vervangen. U kiest Percentiel en typt vervolgens 10 voor percentielwaarde voor een lagere drempelwaarde en typt u 80 voor percentielwaarde voor de bovenste drempelwaarde.
Zie de sectie over percentielen voor enkele voorbeelden van het gebruik van percentielbereiken.
Definieer een vervangende waarde.
Getallen die exact overeenkomen met de grenzen die u hebt opgegeven, worden beschouwd als binnen het toegestane bereik met waarden en worden dus niet vervangen. Alle getallen die buiten het opgegeven bereik vallen, worden vervangen door de vervangende waarde.
- Vervangingswaarde voor pieken: definieert de waarde die moet worden vervangen door alle kolomwaarden die groter zijn dan de opgegeven drempelwaarde.
- Vervangende waarde voor subpeaks: definieert de waarde die moet worden gebruikt als vervanging voor alle kolomwaarden die kleiner zijn dan de opgegeven drempelwaarde.
- Als u de optie ClipPeaksAndSubpeaks gebruikt, kunt u afzonderlijke vervangingswaarden opgeven voor de bovenste en lagere geknipte waarden.
De volgende vervangingswaarden worden ondersteund:
Drempelwaarde: vervangt geknipte waarden door de opgegeven drempelwaarde.
Gemiddelde: hiermee worden geknipte waarden vervangen door het gemiddelde van de kolomwaarden. Het gemiddelde wordt berekend voordat waarden worden geknipt.
Mediaan: hiermee worden geknipte waarden vervangen door de mediaan van de kolomwaarden. De mediaan wordt berekend voordat waarden worden geknipt.
Ontbreekt. Hiermee worden geknipte waarden vervangen door de ontbrekende (lege) waarde.
Indicatorkolommen toevoegen: selecteer deze optie als u een nieuwe kolom wilt genereren die aangeeft of de opgegeven knipbewerking al dan niet is toegepast op de gegevens in die rij. Deze optie is handig wanneer u een nieuwe set waarden voor knippen en vervangen test.
Vlag overschrijven: Geef aan hoe u de nieuwe waarden wilt genereren. Met clipwaarden wordt standaard een nieuwe kolom samengesteld met de piekwaarden die zijn geknipt naar de gewenste drempelwaarde. Nieuwe waarden overschrijven de oorspronkelijke kolom.
Als u de oorspronkelijke kolom wilt behouden en een nieuwe kolom wilt toevoegen met de geknipte waarden, schakelt u deze optie uit.
Verzend de pijplijn.
Klik met de rechtermuisknop op het onderdeel Clipwaarden en selecteer Het onderdeel visualiseren of selecteren en ga naar het tabblad Uitvoer in het rechterdeelvenster, klik op het histogrampictogram in de poortuitvoer om de waarden te controleren en te controleren of de knipbewerking aan uw verwachtingen voldoet.
Voorbeelden voor het knippen met percentielen
Als u wilt weten hoe knipbewerkingen door percentielen werken, kunt u een gegevensset met 10 rijen overwegen, die één exemplaar hebben van elk van de waarden 1-10.
Als u percentiel als de bovenste drempelwaarde gebruikt, moet 90 procent van alle waarden in de gegevensset kleiner zijn dan die waarde bij de waarde voor het 90e percentiel.
Als u percentiel als lagere drempelwaarde gebruikt, moet 10 procent van alle waarden in de gegevensset kleiner zijn dan die waarde voor het 10e percentiel.
Voor Set drempelwaarden kiest u ClipPeaksAndSubPeaks.
Kies voor de bovenste drempelwaarde percentiel en voor percentielnummer 90.
Kies Ontbrekende waarde als vervangingswaarde voor de bovenste vervangende waarde.
Voor lagere drempelwaarde kiest u Percentiel en voor percentielnummer, typt u 10.
Kies Ontbrekende waarde voor lagere vervangingswaarde.
Deselecteer de optie Overschrijven vlag en selecteer de optie, indicatorkolom toevoegen.
Probeer nu dezelfde pijplijn met 60 als de bovenste percentieldrempel en 30 als de lagere percentieldrempel en gebruik de drempelwaarde als vervangingswaarde. In de volgende tabel worden deze twee resultaten vergeleken:
Vervangen door ontbrekend; Bovendrempel = 90; Lagere drempelwaarde = 20
Vervangen door drempelwaarde; Bovenste percentiel = 60; Lager percentiel = 40
Oorspronkelijke gegevens | Vervangen door ontbrekende | Vervangen door drempelwaarde |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, ONWAAR 4, ONWAAR 5, ONWAAR 6, ONWAAR 7, ONWAAR 8, ONWAAR 9, ONWAAR TRUE |
4, WAAR 4, WAAR 4, WAAR 4, WAAR 5, ONWAAR 6, ONWAAR 7, WAAR 7, WAAR 7, WAAR 7, WAAR |
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.