Kolommen selecteren in het onderdeel Gegevensset

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik dit onderdeel om een subset van kolommen te kiezen die moeten worden gebruikt in downstreambewerkingen. Het onderdeel verwijdert de kolommen niet fysiek uit de brongegevensset; in plaats daarvan wordt een subset van kolommen gemaakt, vergelijkbaar met een databaseweergave of -projectie.

Dit onderdeel is handig als u de beschikbare kolommen voor een downstreambewerking wilt beperken of als u de grootte van de gegevensset wilt verkleinen door overbodige kolommen te verwijderen.

De kolommen in de gegevensset worden uitgevoerd in dezelfde volgorde als in de oorspronkelijke gegevens, zelfs als u ze in een andere volgorde opgeeft.

Gebruik

Dit onderdeel heeft geen parameters. U gebruikt de kolomkiezer om de kolommen te kiezen die u wilt opnemen of uitsluiten.

Kolommen kiezen op naam

Er zijn meerdere opties in het onderdeel voor het kiezen van kolommen op naam:

  • Filteren en zoeken

    Klik op de optie OP NAAM .

    Als u een gegevensset hebt verbonden die al is ingevuld, wordt er een lijst met beschikbare kolommen weergegeven. Als er geen kolommen worden weergegeven, moet u mogelijk upstream-onderdelen uitvoeren om de lijst met kolommen weer te geven.

    Als u de lijst wilt filteren, typt u in het zoekvak. Als u bijvoorbeeld de letter w in het zoekvak typt, wordt de lijst gefilterd om de kolomnamen weer te geven die de letter wbevatten.

    Selecteer kolommen en klik op de pijl-rechts om de geselecteerde kolommen naar de lijst in het rechterdeelvenster te verplaatsen.

    • Als u een doorlopend bereik van kolomnamen wilt selecteren, drukt u op Shift + klikken.
    • Als u afzonderlijke kolommen wilt toevoegen aan de selectie, drukt u op Ctrl + klikken.

    Klik op het vinkje om op te slaan en te sluiten.

  • Namen gebruiken in combinatie met andere regels

    Klik op de optie MET REGELS .

    Kies een regel, zoals het weergeven van kolommen van een specifiek gegevenstype.

    Klik vervolgens op afzonderlijke kolommen van dat type op naam om ze toe te voegen aan de selectielijst.

  • Een door komma's gescheiden lijst met kolomnamen typen of plakken

    Als uw gegevensset breed is, is het mogelijk eenvoudiger om indexen of gegenereerde lijsten met namen te gebruiken in plaats van kolommen afzonderlijk te selecteren. Ervan uitgaande dat u de lijst vooraf hebt voorbereid:

    1. Klik op de optie MET REGELS .
    2. Selecteer Geen kolommen, selecteer Opnemen en klik vervolgens in het tekstvak met het rode uitroepteken.
    3. Plak of typ een door komma's gescheiden lijst met eerder gevalideerde kolomnamen. U kunt het onderdeel niet opslaan als een kolom een ongeldige naam heeft, dus controleer de namen vooraf.

    U kunt deze methode ook gebruiken om een lijst met kolommen op te geven met behulp van hun indexwaarden.

Kiezen op type

Als u de optie WITH-REGELS gebruikt, kunt u meerdere voorwaarden toepassen op de kolomselecties. U moet bijvoorbeeld mogelijk alleen functiekolommen van een numeriek gegevenstype ophalen.

De optie BEGINNEN MET bepaalt uw beginpunt en is belangrijk voor het begrijpen van de resultaten.

  • Als u de optie ALLE KOLOMMEN selecteert, worden alle kolommen toegevoegd aan de lijst. Vervolgens moet u de optie Uitsluiten gebruiken om kolommen te verwijderen die aan bepaalde voorwaarden voldoen.

    U kunt bijvoorbeeld beginnen met alle kolommen en vervolgens kolommen verwijderen op naam of type.

  • Als u de optie GEEN KOLOMMEN selecteert, is de lijst met kolommen leeg. Vervolgens geeft u voorwaarden op voor het toevoegen van kolommen aan de lijst.

    Als u meerdere regels toepast, is elke voorwaarde additief. Stel dat u begint met geen kolommen en vervolgens een regel toevoegt om alle numerieke kolommen op te halen. In de gegevensset Automobile price resulteert dit in 16 kolommen. Vervolgens klikt u op het + teken om een nieuwe voorwaarde toe te voegen en selecteert u Alle functies opnemen. De resulterende gegevensset bevat alle numerieke kolommen, plus alle functiekolommen, inclusief enkele kolommen met tekenreeksfuncties.

Kiezen op kolomindex

De kolomindex verwijst naar de volgorde van de kolom in de oorspronkelijke gegevensset.

  • Kolommen worden opeenvolgend genummerd vanaf 1.
  • Gebruik een afbreekstreepje om een bereik van kolommen op te halen.
  • Specificaties met een open einde, zoals 1- of -3 , zijn niet toegestaan.
  • Dubbele indexwaarden (of kolomnamen) zijn niet toegestaan en kunnen leiden tot een fout.

Als uw gegevensset bijvoorbeeld ten minste acht kolommen bevat, kunt u een van de volgende voorbeelden plakken om meerdere niet-aaneengesloten kolommen te retourneren:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

het laatste voorbeeld resulteert niet in een fout; Er wordt echter één exemplaar van de kolom 4geretourneerd.

Volgorde van kolommen wijzigen

De optie Duplicaten toestaan en kolomvolgorde behouden in de selectie begint met een lege lijst en voegt kolommen toe die u opgeeft op naam of index. In tegenstelling tot andere opties, die altijd kolommen in hun 'natuurlijke volgorde' retourneren, voert deze optie de kolommen uit in de volgorde waarin u ze een naam geeft of vermeldt.

In een gegevensset met de kolommen Col1, Col2, Col3 en Col4 kunt u bijvoorbeeld de volgorde van de kolommen omkeren en kolom 2 weglaten door een van de volgende lijsten op te geven:

  • Col4, Col3, Col1
  • 4,3,1

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.