Beskärningsvärden
I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.
Använd komponenten Clip Values för att identifiera och eventuellt ersätta datavärden som ligger över eller under ett angivet tröskelvärde med ett medelvärde, ett konstant eller annat ersättningsvärde.
Du ansluter komponenten till en datauppsättning som har de tal som du vill klippa ut, väljer de kolumner som ska arbeta med och anger sedan ett tröskelvärde eller intervall med värden och en ersättningsmetod. Komponenten kan antingen bara mata ut resultatet eller de ändrade värden som läggs till i den ursprungliga datauppsättningen.
Så här konfigurerar du Clip Values
Innan du börjar ska du identifiera de kolumner som du vill klippa ut och vilken metod som ska användas. Vi rekommenderar att du testar alla urklippsmetoder på en liten delmängd data först.
Komponenten tillämpar samma villkor och ersättningsmetod på alla kolumner som du inkluderar i markeringen. Se därför till att undanta kolumner som du inte vill ändra.
Om du behöver använda urklippsmetoder eller olika villkor för vissa kolumner måste du använda en ny instans av Clip Values för varje uppsättning med liknande kolumner.
Lägg till komponenten Clip Values i pipelinen och anslut den till den datauppsättning som du vill ändra. Du hittar den här komponenten under Datatransformering i kategorin Skala och minska .
I Lista över kolumner använder du kolumnväljaren för att välja de kolumner som Clip Values ska tillämpas på.
För Uppsättning tröskelvärden väljer du något av följande alternativ i listrutan. De här alternativen avgör hur du anger de övre och nedre gränserna för acceptabla värden jämfört med värden som måste klipps av.
ClipPeaks: När du klipper värden efter toppar anger du endast en övre gräns. Värden som är större än det gränsvärdet ersätts.
ClipSubpeaks: När du klipper värden efter underavsnitt anger du bara en lägre gräns. Värden som är mindre än det gränsvärdet ersätts.
ClipPeaksAndSubpeaks: När du klipper värden efter toppar och underpeaks kan du ange både de övre och nedre gränserna. Värden som ligger utanför intervallet ersätts. Värden som matchar gränsvärdena ändras inte.
Beroende på ditt val i föregående steg kan du ange följande tröskelvärden:
- Lägre tröskelvärde: Visas endast om du väljer ClipSubPeaks
- Övre tröskelvärde: Visas endast om du väljer ClipPeaks
- Tröskelvärde: Visas endast om du väljer ClipPeaksAndSubPeaks
För varje tröskelvärdestyp väljer du antingen Konstant eller Percentil.
Om du väljer Konstant skriver du det högsta eller lägsta värdet i textrutan. Anta till exempel att du vet att värdet 999 användes som platshållarvärde. Du kan välja Konstant för det övre tröskelvärdet och skriva 999 i Konstant värde för det övre tröskelvärdet.
Om du väljer Percentil begränsar du kolumnvärdena till ett percentilintervall.
Anta till exempel att du bara vill behålla värdena i percentilintervallet 10–80 och ersätta alla andra. Du väljer Percentil och skriver sedan 10 för Percentilvärde för lägre tröskelvärde och skriver 80 som Percentilvärde för det övre tröskelvärdet.
Se avsnittet om percentiler för några exempel på hur du använder percentilintervall.
Definiera ett ersättningsvärde.
Tal som exakt matchar de gränser som du angav anses ligga inom det tillåtna intervallet med värden och ersätts därför inte. Alla tal som ligger utanför det angivna intervallet ersätts med ersättningsvärdet.
- Ersättningsvärde för toppar: Definierar värdet för att ersätta alla kolumnvärden som är större än det angivna tröskelvärdet.
- Ersättningsvärde för underavsnitt: Definierar det värde som ska användas som ersättning för alla kolumnvärden som är mindre än det angivna tröskelvärdet.
- Om du använder alternativet ClipPeaksAndSubpeaks kan du ange separata ersättningsvärden för de övre och nedre klippta värdena.
Följande ersättningsvärden stöds:
Tröskelvärde: Ersätter klippta värden med det angivna tröskelvärdet.
Medelvärde: Ersätter klippta värden med medelvärdet för kolumnvärdena. Medelvärdet beräknas innan värdena klipps av.
Median: Ersätter klippta värden med medianvärdet för kolumnvärdena. Medianvärdet beräknas innan värdena klipps bort.
Saknas. Ersätter klippta värden med det saknade (tomma) värdet.
Lägg till indikatorkolumner: Välj det här alternativet om du vill generera en ny kolumn som talar om för dig om den angivna urklippsåtgärden som tillämpas på data på den raden eller inte. Det här alternativet är användbart när du testar en ny uppsättning urklipps- och ersättningsvärden.
Skriv över flagga: Ange hur du vill att de nya värdena ska genereras. Som standard konstruerar Clip Values en ny kolumn med de högsta värdena klippta till önskat tröskelvärde. Nya värden skriver över den ursprungliga kolumnen.
Om du vill behålla den ursprungliga kolumnen och lägga till en ny kolumn med de klippta värdena avmarkerar du det här alternativet.
Skicka pipelinen.
Högerklicka på komponenten Clip Values och välj Visualisera eller välj komponenten och växla till fliken Utdata i den högra panelen, klicka på histogramikonen i portutdata, granska värdena och kontrollera att urklippsåtgärden uppfyller dina förväntningar.
Exempel för urklipp med percentiler
Om du vill förstå hur urklipp efter percentiler fungerar bör du överväga en datauppsättning med 10 rader, som har en instans var och en av värdena 1–10.
Om du använder percentilen som det övre tröskelvärdet, vid värdet för den 90:e percentilen, måste 90 procent av alla värden i datamängden vara mindre än det värdet.
Om du använder percentilen som det lägre tröskelvärdet, vid värdet för den tionde percentilen, måste 10 procent av alla värden i datamängden vara mindre än det värdet.
För Uppsättning tröskelvärden väljer du ClipPeaksAndSubPeaks.
För Övre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 90.
För Övre ersättningsvärde väljer du Saknat värde.
För Lägre tröskelvärde väljer du Percentil och för Percentilnummer skriver du 10.
För Lägre ersättningsvärde väljer du Saknat värde.
Avmarkera alternativet Skriv över flaggan och välj alternativet Lägg till indikatorkolumn.
Prova nu samma pipeline med 60 som tröskelvärdet för den övre percentilen och 30 som tröskelvärde för den lägre percentilen och använd tröskelvärdet som ersättningsvärde. I följande tabell jämförs dessa två resultat:
Ersätt med saknas; Övre tröskelvärde = 90; Lägre tröskelvärde = 20
Ersätt med tröskelvärde; Övre percentil = 60; Lägre percentil = 40
Ursprungliga data | Ersätt med saknas | Ersätt med tröskelvärde |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
Sant Sant 3, FALSKT 4, FALSKT 5, FALSKT 6, FALSKT 7, FALSKT 8, FALSKT 9, FALSKT Sant |
4, SANT 4, SANT 4, SANT 4, SANT 5, FALSKT 6, FALSKT 7, SANT 7, SANT 7, SANT 7, SANT |
Nästa steg
Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.