Konvertera till indikatorvärden
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Konverterar kategoriska värden i kolumner till indikatorvärden
Kategori: Datatransformering/manipulering
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Konvertera till indikatorvärden i Machine Learning Studio (klassisk). Syftet med den här modulen är att konvertera kolumner som innehåller kategoriska värden till en serie binära indikatorkolumner som enklare kan användas som funktioner i en maskininlärningsmodell.
Så här konfigurerar du Konvertera till indikatorvärden
Lägg till modulen Convert to Indicator Values (Konvertera till indikatorvärden) Machine Learning ditt experiment och anslut den till datauppsättningen som innehåller de kolumner som du vill konvertera. Du hittar den här modulen under Datatransformationer i kategorin Manipulation .
Använd kolumnväljaren för att välja en eller flera kategoriska kolumner.
För att säkerställa att kolumnerna du väljer är kategoriska använder du Redigera metadata innan du konverterar till indikatorvärden i experimentet för att markera målkolumnen som kategorisk.
Välj alternativet Skriva över kategoriska kolumner om du bara vill mata ut de nya booleska kolumnerna.
Som standard är det här alternativet inaktiverat, vilket gör att du kan se den kategoriska kolumnen som är källan, tillsammans med de relaterade indikatorkolumnerna.
Tips
Om du väljer att skriva över tas inte källkolumnen bort eller ändras. I stället genereras och presenteras de nya kolumnerna i utdatauppsättningen, och källkolumnen är fortfarande tillgänglig i arbetsytan. Om du behöver se ursprungliga data kan du när som helst använda modulen Lägg till kolumner för att lägga till källkolumnen igen.
Kör experimentet.
Resultat
Anta till exempel att du har en kolumn med poäng som anger om en server har en hög, medel eller låg sannolikhet för fel.
Server-ID | Felpoäng |
---|---|
10301 | Låg |
10302 | Medel |
10303 | Högt |
När du använder Convert to Indicator Values (Konvertera till indikatorvärden) konverteras den enskilda kolumnen med etiketter till flera kolumner som innehåller booleska värden:
Server-ID | Felpoäng – låg | Felpoäng – medel | Felpoäng – hög |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
Så här fungerar konverteringen:
I kolumnen Felpoäng som beskriver risk finns det bara tre möjliga värden (Hög, Medel och Låg) och inga värden som saknas. Därför skapas exakt tre nya kolumner.
De nya indikatorkolumnerna namnges baserat på kolumnrubrikerna och värdena i källkolumnen med hjälp av det här mönstret: <källkolumn>– <datavärde>.
Det bör finnas ett 1 i exakt en indikatorkolumn och 0 i alla andra indikatorkolumner. Det beror på att varje server bara kan ha ett riskklassificering.
Du kan nu använda de tre indikatorkolumnerna som funktioner och analysera deras korrelation med andra egenskaper som är associerade med olika risknivå.
Exempel
Exempel på hur den här modulen används finns i Azure AI Gallery:
Canceridentifiering: Patienter grupperas i grupper baserat på patient-ID-nummer och sedan används indikatorvärden för att flagga vilken grupp patienten tillhör. Senare används gruppindikatorerna när du poängar modeller.
Direkt marknadsföring: Sannolikheter jämförs med en konstant med hjälp av Tillämpa matematisk åtgärd, och värdena Ja/Nej som anger om poängen över eller under konstanten omvandlas till nya indikatorkolumner.
Identifiering av nätverksintrång: Loggdata läses in från Azure Storage. Klassvariabeln (som till exempel beskriver om en attack är ett rootkit eller buffertspill) konverteras till en kategorisk kolumn och expanderas sedan till flera indikatorvärden.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Användningstips
Endast kolumner som har markerats som kategoriska kan konverteras till indikatorkolumner. Om du ser det här felet är det troligt att en av de kolumner som du har valt inte är kategorisk:
Fel 0056: Kolumnen med namnkolumnnamnet <är> inte i en tillåten kategori.
Som standard hanteras de flesta strängkolumner som strängfunktioner, så du måste uttryckligen markera dem som kategoriska med hjälp av Redigera metadata.
Ett fel visas om du inte väljer minst en kategorisk kolumn.
Det finns ingen gräns för hur många kolumner du kan konvertera till indikatorkolumner. Men eftersom varje kolumn med värden kan ge flera indikatorkolumner kanske du vill konvertera och granska bara några kolumner i taget.
Om kolumnen innehåller saknade värden skapas en separat indikatorkolumn för den saknade kategorin, med det här namnet: <källkolumn> – saknas
Om kolumnen som du konverterar till indikatorvärden innehåller tal måste de markeras som kategoriska som andra egenskapskolumner. När du har gjort det behandlas talen som diskreta värden. Om du till exempel har en numerisk kolumn med MPG-värden mellan 25 och 30 skapas en ny indikatorkolumn för varje diskret värde:
Modell Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30 Alfa Romeo 0 0 0 0 0 1 För att undvika att få ett stort antal indikatorkolumner rekommenderar vi att du först kontrollerar antalet värden i kolumnen och kvantiserar data på rätt sätt.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Datamängd | Datatabell | Datauppsättning med kategoriska kolumner |
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Kategoriska kolumner som ska konverteras | Valfri | ColumnSelection | Välj kategoriska kolumner för att konvertera till indikatormatriser. | |
Skriva över kategoriska kolumner | Valfri | Boolesk | falskt | Om det är Sant skriver du över de valda kategorikolumnerna. annars lägger du till de resulterande indikatormatriserna i datauppsättningen. |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Datamängd med kategoriska kolumner konverterade till indikatormatriser. |