Välja kolumner i datauppsättning

Artikel
05/06/2019

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Markerar kolumner som ska inkluderas eller undantas från en datauppsättning i en åtgärd

Kategori: Datatransformering/manipulering

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

I den här artikeln beskrivs hur du använder modulen Select Columns in Dataset (Välj kolumner i datamängd) i Machine Learning Studio (klassisk) för att välja en delmängd av kolumner som ska användas i underordnade åtgärder. Modulen tar inte fysiskt bort kolumnerna från källdatauppsättningen. I stället skapas en delmängd av kolumner, ungefär som en databasvy ellerprojektion.

Den här modulen är särskilt användbar när du behöver begränsa tillgängliga kolumner för en underordnad åtgärd, eller om du vill minska storleken på datauppsättningen genom att ta bort kolumner som inte behövs.

Kolumnerna i datauppsättningen matas ut i samma ordning som i ursprungliga data, även om du anger dem i en annan ordning.

Så här använder du Välj kolumner i datauppsättning

Den här modulen har inga parametrar. Du kan använda kolumnväljaren för att välja vilka kolumner som ska inkluderas eller undantas.

Välj kolumner efter namn

Det finns flera alternativ i modulen för att välja kolumner efter namn:

Filtrera och söka

Klicka på alternativet EFTER NAMN.

Om du har anslutit en datauppsättning som redan har fyllts i bör en lista med tillgängliga kolumner visas. Om inga kolumner visas kan du behöva köra överordnade moduler för att visa kolumnlistan.

Filtrera listan genom att skriva i sökrutan. Om du till exempel skriver bokstaven w i sökrutan filtreras listan för att visa kolumnnamnen som innehåller bokstaven w.

Välj kolumner och klicka på högerpilen för att flytta de markerade kolumnerna till listan i den högra rutan.
- Tryck på Skift + klicka för att välja ett kontinuerligt intervall med kolumnnamn.
- Om du vill lägga till enskilda kolumner i markeringen trycker du på Ctrl + klicka.
Klicka på bockmarkeringen för att spara och stänga.
Använda namn i kombination med andra regler

Klicka på alternativet MED REGLER.

Välj en regel, till exempel att visa kolumner av en viss datatyp.

Klicka sedan på enskilda kolumner av den typen efter namn för att lägga till dem i urvalslistan.
Skriva eller klistra in en kommaavgränsad lista med kolumnnamn

Om datamängden är mycket bred kan det vara enklare att använda index eller genererade listor med namn, i stället för att välja kolumner individuellt. Förutsatt att du har förberett listan i förväg:
1. Klicka på alternativet MED REGLER.
2. Välj Inga kolumner, välj Inkludera och klicka sedan i textrutan med det röda utropstecknet.
3. Klistra in eller skriv en kommaavgränsad lista med tidigare validerade kolumnnamn. Du kan inte spara modulen om någon kolumn har ett ogiltigt namn, så se till att kontrollera namnen i förväg.
Du kan också använda den här metoden för att ange en lista med kolumner med deras indexvärden. I avsnittet Exempel finns tips om hur du arbetar med kolumnindex.

Välj efter typ

Om du använder alternativet MED REGLER kan du tillämpa flera villkor på kolumnurvalet. Du kan till exempel behöva hämta endast funktionskolumner av en numerisk datatyp.

Alternativet BÖRJA MED avgör startpunkten och är mycket viktigt för att förstå resultaten.

Om du väljer alternativet ALLA KOLUMNER läggs alla kolumner till i listan. Sedan måste du använda alternativet Undanta för att ta bort kolumner som uppfyller vissa villkor.

Du kan till exempel börja med alla kolumner och sedan ta bort kolumner efter namn eller efter typ.
Om du väljer alternativet INGA KOLUMNER börjar listan med kolumner vara tom. Sedan anger du villkor för att lägga till kolumner i listan.

Om du tillämpar flera regler är varje villkor additivt. Säg till exempel att du börjar utan kolumner och sedan lägger till en regel för att hämta alla numeriska kolumner. I datamängden Automobile price (Bilpriser) resulterar det i 16 kolumner. Klicka sedan på tecknet för + att lägga till ett nytt villkor och välj Inkludera alla funktioner. Den resulterande datamängden innehåller alla numeriska kolumner, plus alla egenskapskolumner, inklusive vissa strängfunktionskolumner.

Välj efter kolumnindex

Kolumnindexet refererar till ordningen på kolumnen i den ursprungliga datauppsättningen.

Kolumner numreras sekventiellt med början vid 1.
Om du vill hämta ett kolumnintervall använder du ett bindestreck.
Öppna specifikationer som eller tillåts 1--3 inte.
Dubblettindexvärden (eller kolumnnamn) tillåts inte och kan resultera i ett fel.

Om din datauppsättning till exempel har minst åtta kolumner kan du klistra in något av följande exempel för att returnera flera kolumner som inte är sammanhängande:

8,1-4,6
1,3-8
1,3-6,4

det sista exemplet resulterar inte i ett fel; den returnerar dock en enda instans av kolumnen 4.

Fler tips om hur du arbetar med kolumnindex finns i avsnittet Exempel.

Ändra ordningen på kolumner

Alternativet Tillåt dubbletter och bevara kolumnordningen i markeringen börjar med en tom lista och lägger till kolumner som du anger efter namn eller efter index. Till skillnad från andra alternativ, som alltid returnerar kolumner i "naturlig ordning", matar det här alternativet ut kolumnerna i den ordning som du namnar eller listar dem.

I en datamängd med kolumnerna Col1, Col2, Col3 och Col4 kan du till exempel ändra ordningen på kolumnerna och lämna kolumn 2 genom att ange någon av följande listor:

Col4, Col3, Col1
4,3,1

Exempel

Exempel på hur du använder Välj kolumner i datauppsättning finns i följande exempelexperiment i modellgalleriet:

Exemplet på canceridentifiering av cancer använder Select Columns in Dataset (Välj kolumner i datamängd) för att ta bort en avslutande tom kolumn, ta bort en kolumn med duplicerade data och för att projicera tränings- och testuppsättningar.
I exemplet med förutsägelser för flygfördröjning används Select Columns in Dataset (Välj kolumner i datauppsättning) för att exkludera alla strängkolumner och för att exkludera kolumner efter namn.
I exemplet förutsägelse av elevprestanda används Select Columns in Dataset ( Välj kolumner i datauppsättning) för att hämta alla temporala funktioner och för att exkludera flera kolumner.
I exemplet Compare Regressors (Jämför regressorer ) används Select Columns in Dataset (Välj kolumner i datamängd) för att exkludera kolumnen, num-of-doors, eftersom det är fel datatyp för den matematiska åtgärd som följer.

Vanliga scenarier för kolumnval

I följande exempel beskrivs några vanliga sätt som användare använder för att välja kolumner i datauppsättning i maskininlärning och innehåller några tips för hur du väljer kolumner:

Jag vill ta bort textkolumner från datauppsättningen så att jag kan tillämpa en matematisk åtgärd på alla numeriska kolumner.

Många åtgärder kräver att endast numeriska kolumner finns i datauppsättningen. Du kan tillfälligt ta bort kolumner som skulle orsaka ett fel genom att exkludera text och exkludera kategorikolumner (tal som representerar diskreta kategorier).
1. Klicka på Starta kolumnväljaren.
2. För Börja med väljer du Alla kolumner.
3. Välj alternativet Exkludera , välj kolumntyp och välj sedan Sträng.
4. Klicka på plustecknet (+) för att lägga till ett nytt villkor.
5. Välj alternativet Exkludera , välj kolumntyp och välj sedan Kategorisk.
Jag behöver bara tillämpa funktionsval på de kategoriska egenskapskolumnerna.

Om du behöver avgränsa kolumner av liknande typ kan du tillämpa flera villkor. Funktioner kan till exempel vara kategoriska eller numeriska, men vissa funktionsvalsmoduler tillåter inte icke-numeriska fält, så du måste först hämta funktioner och sedan lägga till ett villkor för att bara få de numeriska funktionerna.
1. Klicka på Starta kolumnväljaren.
2. För Börja med väljer du Inga kolumner.
3. Välj alternativet Inkludera och välj alla funktioner.
4. Klicka på plustecknet (+) för att lägga till ett nytt villkor.
5. Välj alternativet Inkludera, välj kolumntyp och välj sedan Kategorisk.
Jag behöver tillämpa en annan normaliseringsåtgärd på olika numeriska kolumner.

Innan du tillämpar matematiska operationer kan du behöva separera heltal från flyttal och så vidare. Det gör du genom att använda datatyperna och tillämpa flera villkor.
1. Klicka på Starta kolumnväljaren.
2. För Börja med väljer du Inga kolumner.
3. Välj alternativet Inkludera, välj kolumntyp och välj sedan Numerisk.
4. Klicka på plustecknet (+) för att lägga till ett nytt villkor.
5. Välj alternativet Inkludera , välj kolumntyp och välj sedan den numeriska typ som inte är kompatibel med den underordnade åtgärden.
Det finns för många kolumner att välja med hjälp av väljaren.

När du har importerat en datauppsättning ser du ofta att den har många kolumner som inte behövs för modellering. Du vill dock bevara dem för utdata senare eller för att identifiera fall. Du kan göra detta genom att dela upp datauppsättningen i två delar (metadata och kolumner som används för modellering) och senare kombinera kolumner efter behov med hjälp av Lägg till kolumner.
1. Klicka på Starta kolumnväljaren.
2. För Börja med väljer du Inga kolumner.
3. Välj alternativet Inkludera , välj kolumntyp och välj sedan Funktion.
4. Klicka på plustecknet (+) för att lägga till ett nytt villkor.
5. Välj alternativet Inkludera , välj kolumntyp och välj sedan Etikett.
6. Upprepa dessa steg, men börja med alla kolumner och uteslut sedan kolumner med funktioner och etiketter för att skapa en datauppsättning med endast metadata.
Jag känner inte till indexvärdena för de kolumner jag behöver.

Om det bara finns några kolumner i datamängden kan du använda alternativet Visualisera för att se de första 100 raderna och sedan ta reda på vilken kolumn som är index 1, 2 och så vidare.
- Indexen i Machine Learning 1, så den första kolumnen är alltid 1.
- Om du vill hämta indexet för den sista kolumnen tittar du på de två kolumnerna i kolumnväljaren: TILLGÄNGLIGA KOLUMNER och VALDA KOLUMNER. Det grå fältet under kolumnlistan visar antalet kolumner i varje lista. Om 24 kolumner är tillgängliga och två kolumner väljs, finns det därför totalt 26 kolumner och indexet för den sista kolumnen är 26.
Ett annat alternativ för att extrahera schemat för datauppsättningen är att använda modulen Execute R Script (Kör R-skript ) för att hämta kolumnnamnen med indexnummer.
1. Anslut datauppsättningen till modulen Execute R Script (Kör R-skript).
2. I modulen skriver du ett skript som liknar följande för att mata ut kolumnnamnen. Den rad som börjar myindex med genererar en sekvens som representerar indexen i ordning.
```
dataset1 <- maml.mapInputPort(1) # class: data.frame
mycolnames <-names(dataset1);
myindex <- seq(from = 1, to = length(mycolnames), by=1);
outdata <- as.data.frame(cbind(myindex, mycolnames));
maml.mapOutputPort("outdata"); 
```
Resultat för datauppsättningen Automobile price

myindex mycolnames

1 symboling

2 normalized-losses

3 make

myindex	mycolnames
1	symboling
2	normalized-losses
3	make

Teknisk information

Om du är bekant med relationsdatabaser skapar den här modulen en projektion av data. Därav det ursprungliga namnet, Project Kolumner. I databastermer är en projektion en funktion, till exempel en Transact-SQL- eller LINQ-instruktion, som tar data i tabellformat som indata och genererar relaterade utdata.

I relationsalalgebra är en projektion en enär åtgärd som skrivs som en uppsättning attributnamn. Resultatet av en projektion är uppsättningen med dessa attribut, där andra attribut tas bort.

Förväntade indata

Namn	Typ	Description
Datamängd	Datatabell	Indatauppsättning

Modulparametrar

Name	Intervall	Typ	Standardvärde	Description
Välja kolumner	valfri	ColumnSelection		Välj kolumner som ska behållas i den beräknade datauppsättningen.

Utdata

Namn	Typ	Description
Resultatdatauppsättning	Datatabell	Utdatauppsättning

Undantag

Undantag	Description
Fel 0001	Ett undantag inträffar om det inte går att hitta en eller flera angivna kolumner i datauppsättningen.
Fel 0003	Ett undantag inträffar om en eller flera indatauppsättningar är null eller tomma.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Manipulation

Share via