Kolommen in gegevensset selecteren

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Selecteert kolommen om op te nemen of uit te sluiten van een gegevensset in een bewerking

Categorie: Gegevenstransformatie/manipulatie

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Kolommen in gegevensset selecteren in Machine Learning Studio (klassiek) gebruikt om een subset kolommen te kiezen voor gebruik in downstreambewerkingen. De module verwijdert de kolommen niet fysiek uit de bronset; In plaats daarvan wordt een subset van kolommen gemaakt, net als bij een databaseweergave of -projectie.

Deze module is vooral nuttig wanneer u de kolommen wilt beperken die beschikbaar zijn voor een downstreambewerking, of als u de grootte van de gegevensset wilt verkleinen door onnodige kolommen te verwijderen.

De kolommen in de gegevensset worden in dezelfde volgorde uitgevoerd als in de oorspronkelijke gegevens, zelfs als u ze in een andere volgorde opgeeft.

Kolommen in gegevensset selecteren gebruiken

Deze module heeft geen parameters. U gebruikt de kolom selector om de kolommen te kiezen die u wilt opnemen of uitsluiten.

Kolommen kiezen op naam

Er zijn meerdere opties in de module voor het kiezen van kolommen op naam:

Filteren en zoeken

Klik op de optie BY NAME .

Als u een gegevensset hebt verbonden die al is ingevuld, wordt er een lijst met beschikbare kolommen weergegeven. Als er geen kolommen worden weergegeven, moet u mogelijk upstream-modules uitvoeren om de kolomlijst weer te geven.

Typ in het zoekvak om de lijst te filteren. Als u bijvoorbeeld de letter in het w zoekvak typt, wordt de lijst gefilterd om de kolomnamen weer te geven die de letter bevatten w.

Selecteer kolommen en klik op de pijl-rechts om de geselecteerde kolommen naar de lijst in het rechterdeelvenster te verplaatsen.
- Als u een doorlopend bereik van kolomnamen wilt selecteren, drukt u op Shift + Klikken.
- Als u afzonderlijke kolommen aan de selectie wilt toevoegen, drukt u op Ctrl + Klikken.
Klik op het vinkje om op te slaan en te sluiten.
Namen gebruiken in combinatie met andere regels

Klik op de optie WITH RULES .

Kies een regel, zoals het weergeven van kolommen van een specifiek gegevenstype.

Klik vervolgens op afzonderlijke kolommen van dat type op naam om ze toe te voegen aan de selectielijst.
Een door komma's gescheiden lijst met kolomnamen typen of plakken

Als uw gegevensset zeer breed is, is het mogelijk eenvoudiger om indexen of gegenereerde lijsten met namen te gebruiken in plaats van kolommen afzonderlijk te selecteren. Ervan uitgaande dat u de lijst vooraf hebt voorbereid:
1. Klik op de optie WITH RULES .
2. Selecteer Geen kolommen, selecteer Opnemen en klik vervolgens in het tekstvak met het rode uitroepteken.
3. Plak of typ een door komma's gescheiden lijst met eerder gevalideerde kolomnamen. U kunt de module niet opslaan als een kolom een ongeldige naam heeft. Controleer daarom van tevoren de namen.
U kunt deze methode ook gebruiken om een lijst met kolommen op te geven met behulp van de indexwaarden. Zie de sectie Voorbeelden voor tips over het werken met kolomindexen.

Kiezen op type

Als u de optie WITH RULES gebruikt , kunt u meerdere voorwaarden toepassen op de kolomselecties. U hoeft bijvoorbeeld alleen functiekolommen van een numeriek gegevenstype op te halen.

De optie BEGINNEN MET bepaalt uw beginpunt en is erg belangrijk voor het begrijpen van de resultaten.

Als u de optie ALLE KOLOMMEN selecteert, worden alle kolommen toegevoegd aan de lijst. Vervolgens moet u de optie Uitsluiten gebruiken om kolommen te verwijderen die aan bepaalde voorwaarden voldoen.

U kunt bijvoorbeeld beginnen met alle kolommen en vervolgens kolommen verwijderen op naam of op type.
Als u de optie GEEN KOLOMMEN selecteert, wordt de lijst met kolommen leeg. Vervolgens geeft u voorwaarden op om kolommen aan de lijst toe te voegen.

Als u meerdere regels toe passen, is elke voorwaarde additief. Stel dat u begint met geen kolommen en vervolgens een regel toevoegt om alle numerieke kolommen op te halen. In de gegevensset Automobile price resulteert dit in 16 kolommen. Vervolgens klikt u op het teken + om een nieuwe voorwaarde toe te voegen en selecteert u Alle functies opnemen. De resulterende gegevensset bevat alle numerieke kolommen, plus alle functiekolommen, inclusief enkele kolommen met tekenreeksfunctie.

Kiezen op kolomindex

De kolomindex verwijst naar de volgorde van de kolom in de oorspronkelijke gegevensset.

Kolommen worden opeenvolgend genummerd vanaf 1.
Gebruik een koppelteken om een bereik van kolommen op te halen.
Specificaties met open einde, zoals 1- of -3 , zijn niet toegestaan.
Dubbele indexwaarden (of kolomnamen) zijn niet toegestaan en kunnen resulteren in een fout.

Als uw gegevensset bijvoorbeeld ten minste acht kolommen bevat, kunt u een van de volgende voorbeelden plakken om meerdere niet-aaneengesloten kolommen te retourneren:

8,1-4,6
1,3-8
1,3-6,4

het laatste voorbeeld resulteert niet in een fout; Het retourneert echter één exemplaar van kolom 4.

Zie de sectie Voorbeelden voor meer tips over het werken met kolomindexen.

De volgorde van kolommen wijzigen

De optie Duplicaten toestaan en kolomorde behouden begint met een lege lijst en voegt kolommen toe die u op naam of index opgeeft. In tegenstelling tot andere opties, die kolommen altijd in hun 'natuurlijke volgorde' retourneren, worden met deze optie de kolommen uitgevoerd in de volgorde waarin u ze een naam geeft of oplijst.

In een gegevensset met de kolommen Col1, Col2, Col3 en Col4 kunt u bijvoorbeeld de volgorde van de kolommen omkeren en kolom 2 weg laten door een van de volgende lijsten op te geven:

Col4, Col3, Col1
4,3,1

Voorbeelden

Zie deze voorbeeldexperimenten in de modelgalerie voor voorbeelden van het gebruik van Select Columns in Dataset:

In het voorbeeld Van kankerdetectie wordt Gebruikgemaakt van Kolommen in gegevensset selecteren om een lege kolom te verwijderen, een kolom met dubbele gegevens te verwijderen en trainings- en testsets te projecteren.
In het voorbeeld Vluchtvertragingsvoorspelling wordt Kolommen in gegevensset selecteren gebruikt om alle tekenreekskolommen uit te sluiten en kolommen op naam uit te sluiten.
In het voorbeeld Voorspelling van prestaties van studenten wordt Kolommen in gegevensset selecteren gebruikt om alle tijdelijke kenmerken op te halen en om meerdere kolommen uit te sluiten.
In het voorbeeld Regressors vergelijken wordt Kolommen in gegevensset selecteren gebruikt om de kolom num-of-doors uit te sluiten, omdat dit het verkeerde gegevenstype is voor de wiskundige bewerking die volgt.

Algemene scenario's voor kolomselectie

In de volgende voorbeelden worden enkele gebruikelijke manieren beschreven waarop gebruikers Kolommen in gegevensset selecteren toepassen in machine learning, en vindt u enkele tips voor het selecteren van de kolommen:

Ik wil tekstkolommen uit de gegevensset verwijderen, zodat ik een wiskundige bewerking kan toepassen op alle numerieke kolommen.

Voor veel bewerkingen moeten alleen numerieke kolommen aanwezig zijn in de gegevensset. U kunt tijdelijk kolommen verwijderen die een fout veroorzaken door tekst uit te sluiten en categorische kolommen uit te sluiten (getallen die afzonderlijke categorieën vertegenwoordigen).
1. Klik op Launch column selector.
2. Selecteer voor Begin With de optie Alle kolommen.
3. Selecteer de optie Uitsluiten, selecteer kolomtype en selecteer vervolgens Tekenreeks.
4. Klik op het plusteken (+) om een nieuwe voorwaarde toe te voegen.
5. Selecteer de optie Uitsluiten, selecteer kolomtype en selecteer vervolgens Categorisch.
Ik moet functieselectie alleen toepassen op de categorische functiekolommen.

Als u kolommen van een vergelijkbaar type wilt scheiden, kunt u meerdere voorwaarden toepassen. Functies kunnen bijvoorbeeld categorisch of numeriek zijn, maar sommige functieselectiemodules staan geen niet-numerieke velden toe, dus u moet eerst functies krijgen en vervolgens een voorwaarde toevoegen om alleen de numerieke functies op te halen.
1. Klik op Launch column selector.
2. Selecteer voor Begin With de optie Geen kolommen.
3. Selecteer de optie Opnemen en selecteer alle functies.
4. Klik op het plusteken (+) om een nieuwe voorwaarde toe te voegen.
5. Selecteer de optie Opnemen, selecteer kolomtype en selecteer vervolgens Categorisch.
Ik moet een andere normalisatiebewerking toepassen op verschillende numerieke kolommen.

Voordat u wiskundige bewerkingen gaat toepassen, moet u mogelijk gehele getallen scheiden van drijvende-puntnummers, enzovoort. Gebruik hiervoor de gegevenstypen en pas meerdere voorwaarden toe.
1. Klik op Launch column selector.
2. Selecteer voor Begin With de optie Geen kolommen.
3. Selecteer de optie Opnemen, selecteer kolomtype en selecteer vervolgens Numeriek.
4. Klik op het plusteken (+) om een nieuwe voorwaarde toe te voegen.
5. Selecteer de optie Opnemen , selecteer kolomtype en selecteer vervolgens het numerieke type dat niet compatibel is met de downstreambewerking.
Er zijn te veel kolommen om te kiezen met behulp van de selector.

Na het importeren van een gegevensset ziet u vaak dat deze veel kolommen bevat die niet nodig zijn voor modellering. U wilt ze echter bewaren voor later uitvoer, of voor het identificeren van cases. U kunt dit doen door de gegevensset op te splitsen in twee delen (metagegevens en kolommen die worden gebruikt voor modellering) en kolommen later indien nodig opnieuw tecombineren met behulp van Kolommen toevoegen.
1. Klik op Launch column selector.
2. Selecteer voor Begin With de optie Geen kolommen.
3. Selecteer de optie Opnemen, selecteer kolomtype en selecteer vervolgens Functie.
4. Klik op het plusteken (+) om een nieuwe voorwaarde toe te voegen.
5. Selecteer de optie Opnemen, selecteer kolomtype en selecteer vervolgens Label.
6. Herhaal deze stappen, maar begin met alle kolommen en sluit vervolgens functie- en labelkolommen uit om een gegevensset met alleen de metagegevens te maken.
Ik weet niet wat de indexwaarden zijn voor de kolommen die ik nodig heb.

Als uw gegevensset slechts enkele kolommen bevat, kunt u de optie Visualiseren gebruiken om de eerste 100 rijen te bekijken en vervolgens te achterhalen welke kolom index 1, 2, enzovoort is.
- De indexen in Machine Learning beginnen bij 1, dus de eerste kolom is altijd 1.
- Bekijk de twee lijsten met kolommen in de kolom selector: AVAILABLE COLUMNS en SELECTED COLUMNS om de index van de laatste kolom op te halen. In de grijze balk onder de kolomlijst wordt het aantal kolommen in elke lijst weergegeven. Als er dus 24 kolommen beschikbaar zijn en twee kolommen zijn geselecteerd, zijn er in totaal 26 kolommen en is de index van de laatste kolom 26.
Een andere optie voor het extraheren van het schema van uw gegevensset is het gebruik van de module Execute R Script om de kolomnamen met indexnummers op te halen.
1. Verbinding maken gegevensset naar de module R-script uitvoeren.
2. Typ in de module een script zoals het volgende om de kolomnamen uit te voeren. De regel die begint met myindex genereert een reeks die de indexen in volgorde vertegenwoordigt.
```
dataset1 <- maml.mapInputPort(1) # class: data.frame
mycolnames <-names(dataset1);
myindex <- seq(from = 1, to = length(mycolnames), by=1);
outdata <- as.data.frame(cbind(myindex, mycolnames));
maml.mapOutputPort("outdata"); 
```
Resultaten van de gegevensset Automobile price

myindex mycolnames

1 symboling

2 normalized-losses

3 make

myindex	mycolnames
1	symboling
2	normalized-losses
3	make

Technische opmerkingen

Als u bekend bent met relationele databases, maakt deze module een projectie van de gegevens; vandaar de oorspronkelijke naam, Project Kolommen. In databasetermen is een projectie een functie, zoals een Transact-SQL- of LINQ-instructie, die een gegevens in tabelvorm als invoer gebruikt en een gerelateerde uitvoer produceert.

In relationele algebra is een projectie een unaire bewerking, die wordt geschreven als een set kenmerknamen. Het resultaat van een projectie is de set van deze kenmerken, met andere kenmerken verwijderd.

Verwachte invoer

Naam	Type	Description
Gegevensset	Gegevenstabel	Invoerset

Moduleparameters

Name	Bereik	Type	Standaard	Beschrijving
Kolommen selecteren	alle	ColumnSelection		Selecteer kolommen die u in de verwachte gegevensset wilt behouden.

Uitvoerwaarden

Naam	Type	Description
Gegevensset met resultaten	Gegevenstabel	Uitvoerset

Uitzonderingen

Uitzondering	Description
Fout 0001	Er treedt een uitzondering op als een of meer opgegeven kolommen van de gegevensset niet kunnen worden gevonden.
Fout 0003	Er treedt een uitzondering op als een of meer invoersets null of leeg zijn.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Manipulatie

Delen via