Rensa datakomponenten som saknas
I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.
Använd den här komponenten för att ta bort, ersätta eller härled saknade värden.
Dataexperter söker ofta efter saknade värden och utför sedan olika åtgärder för att åtgärda data eller infoga nya värden. Målet med sådana rengöringsåtgärder är att förhindra problem som orsakas av saknade data som kan uppstå vid träning av en modell.
Den här komponenten stöder flera typer av åtgärder för att "rensa" saknade värden, inklusive:
- Ersätta saknade värden med platshållare, medelvärde eller annat värde
- Ta bort rader och kolumner som saknar värden helt
- Härleda värden baserat på statistiska metoder
Om du använder den här komponenten ändras inte källdatauppsättningen. I stället skapas en ny datauppsättning på din arbetsyta som du kan använda i det efterföljande arbetsflödet. Du kan också spara den nya, rensade datamängden för återanvändning.
Den här komponenten matar också ut en definition av omvandlingen som används för att rensa saknade värden. Du kan återanvända den här omvandlingen på andra datauppsättningar som har samma schema med hjälp av komponenten Tillämpa transformering .
Så här använder du rensa data som saknas
Med den här komponenten kan du definiera en rensningsåtgärd. Du kan också spara rensningsåtgärden så att du kan tillämpa den senare på nya data. Se följande avsnitt om hur du skapar och sparar en rensningsprocess:
Viktigt!
Den rengöringsmetod som du använder för att hantera saknade värden kan dramatiskt påverka dina resultat. Vi rekommenderar att du experimenterar med olika metoder. Överväg både motiveringen för användning av en viss metod och resultatets kvalitet.
Ersätt saknade värden
Varje gång du tillämpar komponenten Rensa saknade data på en uppsättning data tillämpas samma rensningsåtgärd på alla kolumner som du väljer. Om du behöver rensa olika kolumner med olika metoder använder du därför separata instanser av komponenten.
Lägg till komponenten Rensa saknade data i pipelinen och anslut den datauppsättning som saknar värden.
För Att Kolumner ska rensas väljer du de kolumner som innehåller de saknade värden som du vill ändra. Du kan välja flera kolumner, men du måste använda samma ersättningsmetod i alla valda kolumner. Därför behöver du vanligtvis rensa strängkolumner och numeriska kolumner separat.
Om du till exempel vill söka efter saknade värden i alla numeriska kolumner:
Välj komponenten Rensa saknade data och klicka på Kolumnen Redigera i komponentens högra panel.
För Inkludera väljer du Kolumntyper i listrutan och väljer sedan Numeriskt.
Alla rensnings- eller ersättningsmetoder som du väljer måste gälla för alla kolumner i markeringen. Om data i en kolumn är inkompatibla med den angivna åtgärden returnerar komponenten ett fel och stoppar pipelinen.
För Minsta värdekvot som saknas anger du det minsta antal saknade värden som krävs för den åtgärd som ska utföras.
Du använder det här alternativet i kombination med Förhållandet maximalt värde som saknas för att definiera de villkor under vilka en rensningsåtgärd utförs på datamängden. Om det finns för många eller för få rader som saknar värden kan åtgärden inte utföras.
Talet du anger representerar förhållandet mellan saknade värden och alla värden i kolumnen. Som standard är egenskapen Minsta saknade värdekvot inställd på 0. Det innebär att saknade värden rensas även om det bara finns ett värde som saknas.
Varning
Det här villkoret måste uppfyllas av varje kolumn för att den angivna åtgärden ska gälla. Anta till exempel att du har valt tre kolumner och sedan anger det minsta förhållandet mellan saknade värden och .2 (20 %), men bara en kolumn har faktiskt 20 % saknade värden. I det här fallet gäller rensningsåtgärden endast för kolumnen med över 20 % saknade värden. Därför skulle de andra kolumnerna vara oförändrade.
Om du är osäker på om saknade värden har ändrats väljer du alternativet Generera kolumnen Generera värdeindikator som saknas. En kolumn läggs till i datamängden för att ange om varje kolumn uppfyller de angivna kriterierna för de minsta och högsta intervallen.
För Maximalt värde som saknas anger du det maximala antalet saknade värden som kan finnas för den åtgärd som ska utföras.
Du kanske till exempel bara vill utföra värdeersättning som saknas om 30 % eller färre av raderna innehåller saknade värden, men lämnar värdena som de är om mer än 30 % av raderna saknar värden.
Du definierar talet som förhållandet mellan saknade värden och alla värden i kolumnen. Som standard är förhållandet maximalt saknat värde inställt på 1. Det innebär att saknade värden rensas även om 100 % av värdena i kolumnen saknas.
För Rensningsläge väljer du något av följande alternativ för att ersätta eller ta bort saknade värden:
Anpassat ersättningsvärde: Använd det här alternativet för att ange ett platshållarvärde (till exempel 0 eller NA) som gäller för alla saknade värden. Värdet som du anger som ersättning måste vara kompatibelt med kolumnens datatyp.
Ersätt med medelvärde: Beräknar kolumn medelvärdet och använder medelvärdet som ersättningsvärde för varje värde som saknas i kolumnen.
Gäller endast för kolumner som har datatyperna Heltal, Double eller Booleskt.
Ersätt med median: Beräknar kolumnens medianvärde och använder medianvärdet som ersättning för eventuella saknade värden i kolumnen.
Gäller endast för kolumner som har heltals- eller dubbeldatatyper.
Ersätt med läge: Beräknar läget för kolumnen och använder läget som ersättningsvärde för varje värde som saknas i kolumnen.
Gäller för kolumner som har datatyperna Integer, Double, Boolean eller Categorical.
Ta bort hela raden: Tar bort alla rader i datauppsättningen som har ett eller flera saknade värden. Detta är användbart om det saknade värdet kan anses saknas slumpmässigt.
Ta bort hela kolumnen: Tar helt bort alla kolumner i datauppsättningen som har ett eller flera saknade värden.
Alternativet Ersättningsvärde är tillgängligt om du har valt alternativet Anpassat ersättningsvärde. Ange ett nytt värde som ska användas som ersättningsvärde för alla saknade värden i kolumnen.
Observera att du endast kan använda det här alternativet i kolumner som har heltal, dubbel, boolesk eller sträng.
Generera värdeindikatorkolumn som saknas: Välj det här alternativet om du vill ange en indikation på om värdena i kolumnen uppfyllde kriterierna för rensning av saknade värden. Det här alternativet är särskilt användbart när du konfigurerar en ny rengöringsåtgärd och vill se till att den fungerar som den är utformad.
Skicka pipelinen.
Resultat
Komponenten returnerar två utdata:
Rensad datauppsättning: En datauppsättning som består av de valda kolumnerna, med saknade värden hanterade som angivna, tillsammans med en indikatorkolumn, om du valde det alternativet.
Kolumner som inte har valts för rensning "skickas också".
Rengöringstransformering: En datatransformering som används för rensning, som kan sparas på din arbetsyta och tillämpas på nya data senare.
Tillämpa en sparad rensningsåtgärd på nya data
Om du ofta behöver upprepa rensningsåtgärder rekommenderar vi att du sparar receptet för datarensning som en transformering för att återanvända med samma datauppsättning. Att spara en rengöringstransformering är särskilt användbart om du ofta måste importera om och sedan rensa data som har samma schema.
Lägg till komponenten Tillämpa transformering i pipelinen.
Lägg till den datauppsättning som du vill rensa och anslut datauppsättningen till den högra indataporten.
Expandera gruppen Transformeringar i den vänstra rutan i designern. Leta upp den sparade omvandlingen och dra den till pipelinen.
Anslut den sparade omvandlingen till den vänstra indataporten för Tillämpa transformering.
När du tillämpar en sparad transformering kan du inte välja de kolumner som omvandlingen ska tillämpas på. Det beror på att omvandlingen redan har definierats och tillämpas automatiskt på de kolumner som angavs i den ursprungliga åtgärden.
Anta dock att du har skapat en transformering på en delmängd av numeriska kolumner. Du kan använda den här omvandlingen på en datauppsättning med blandade kolumntyper utan att skapa ett fel, eftersom de saknade värdena endast ändras i matchande numeriska kolumner.
Skicka pipelinen.
Nästa steg
Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.