Konvertera till indikatorvärden

Artikel
09/01/2024

I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.

Använd komponenten Konvertera till indikatorvärden i Azure Mašinsko učenje designer för att konvertera kolumner som innehåller kategoriska värden till en serie binära indikatorkolumner.

Åtgärden Konvertera till indikatorvärden möjliggör konvertering av kategoriska data till indikatorvärden som representeras av binära eller flera värden. Den här processen är ett av de dataförbearbetningssteg som ofta används för klassificeringsmodeller.

Den här komponenten matar också ut en definition av omvandlingen som används för att konvertera till indikatorvärden. Du kan återanvända den här omvandlingen på andra datauppsättningar som har samma schema med hjälp av komponenten Tillämpa transformering .

Så här konfigurerar du konvertera till indikatorvärden

Leta reda på konvertera till indikatorvärden och dra den till pipelineutkastet. Du hittar den här komponenten under kategorin Datatransformering .

Kommentar

Du kan använda komponenten Redigera metadata före komponenten Konvertera till indiciatorvärden för att markera målkolumnerna som kategoriska.
Anslut komponenten Konvertera till indikatorvärden till datauppsättningen som innehåller de kolumner som du vill konvertera.
Välj Redigera kolumn för att välja en eller flera kategoriska kolumner.
Välj alternativet Skriv över kategoriska kolumner om du bara vill mata ut de nya booleska kolumnerna. Som standard är det här alternativet inaktiverat.

Dricks

Om du väljer alternativet för att skriva över tas källkolumnen inte bort eller ändras. I stället genereras och presenteras de nya kolumnerna i utdatauppsättningen, och källkolumnen förblir tillgänglig på arbetsytan. Om du behöver se de ursprungliga data kan du använda komponenten Lägg till kolumner när som helst för att lägga till källkolumnen igen.
Skicka pipelinen.

Resultat

Anta att du har en kolumn med poäng som anger om en server har hög, medel eller låg sannolikhet för fel.

Server-ID	Felpoäng
10301	Låg
10302	Medium
10303	Högt

När du använder Konvertera till indikatorvärden konverterar designern en enda kolumn med etiketter till flera kolumner som innehåller booleska värden:

Server-ID	Felpoäng – låg	Felpoäng – medel	Felpoäng – hög
10301	1	0	0
10302	0	1	0
10303	0	0	1

Så här fungerar konverteringen:

I kolumnen Felpoäng som beskriver risker finns det bara tre möjliga värden (hög, medel och låg) och inga saknade värden. Därför skapas exakt tre nya kolumner.
De nya indikatorkolumnerna namnges baserat på kolumnrubrikerna och värdena i källkolumnen med hjälp av det här mönstret: källkolumn>- <datavärde>.<
Det bör finnas en 1 i exakt en indikatorkolumn och 0 i alla andra indikatorkolumner eftersom varje server bara kan ha en riskklassificering.

Nu kan du använda de tre indikatorkolumnerna som funktioner i en maskininlärningsmodell.

Komponenten returnerar två utdata:

Resultatdatauppsättning: En datauppsättning med konverterade indikatorvärden. Kolumner som inte har valts för rensning "skickas också".
Transformering av indikatorvärden: En datatransformering som används för att konvertera till indikatorvärden, som kan sparas på din arbetsyta och tillämpas på nya data senare.

Tillämpa en åtgärd för sparade indikatorvärden på nya data

Om du ofta behöver upprepa åtgärder för indikatorvärden kan du spara dina datamanipuleringssteg som en transformering för att återanvända dem med samma datauppsättning. Detta är användbart om du ofta måste importera om och sedan rensa data som har samma schema.

Lägg till komponenten Tillämpa transformering i pipelinen.
Lägg till den datauppsättning som du vill rensa och anslut datauppsättningen till den högra indataporten.
Expandera gruppen Datatransformering i den vänstra rutan i designern. Leta upp den sparade omvandlingen och dra den till pipelinen.
Anslut den sparade omvandlingen till den vänstra indataporten för Tillämpa transformering.

När du tillämpar en sparad transformering kan du inte välja vilka kolumner som ska transformeras. Det beror på att omvandlingen har definierats och tillämpas automatiskt på de datatyper som angavs i den ursprungliga åtgärden.
Skicka pipelinen.

Tekniska anteckningar

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Användningstips

Endast kolumner som är markerade som kategoriska kan konverteras till indikatorkolumner. Om du ser följande fel är det troligt att en av de kolumner som du har valt inte är kategorisk:

Fel 0056: Kolumnen med namnkolumnnamnet <> finns inte i en tillåten kategori.

Som standard hanteras de flesta strängkolumner som strängfunktioner, så du måste uttryckligen markera dem som kategoriska med redigera metadata.
Det finns ingen gräns för antalet kolumner som du kan konvertera till indikatorkolumner. Men eftersom varje kolumn med värden kan ge flera indikatorkolumner kanske du vill konvertera och granska bara några kolumner i taget.
Om kolumnen innehåller värden som saknas skapas en separat indikatorkolumn för kategorin som saknas, med det här namnet: <källkolumnen> saknas
Om kolumnen som du konverterar till indikatorvärden innehåller tal måste de markeras som kategoriska som andra funktionskolumner. När du har gjort det behandlas talen som diskreta värden. Om du till exempel har en numerisk kolumn med MPG-värden mellan 25 och 30 skapas en ny indikatorkolumn för varje diskret värde:

Tillverka Motorväg mpg -25 Motorväg mpg -26 Motorväg mpg -27 Motorväg mpg -28 Motorväg mpg -29 Motorväg mpg -30

Contoso Bilar 0 0 0 0 0 1
Undvik att lägga till för många dimensioner i datauppsättningen. Vi rekommenderar att du först kontrollerar antalet värden i kolumnen och tar bort eller kvantifierar data på rätt sätt.

Tillverka	Motorväg mpg -25	Motorväg mpg -26	Motorväg mpg -27	Motorväg mpg -28	Motorväg mpg -29	Motorväg mpg -30
Contoso Bilar	0	0	0	0	0	1

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.

Dela via