Delen via


Converteren naar indicatorwaarden

In dit artikel wordt een onderdeel van Azure Machine Learning Designer beschreven.

Gebruik het onderdeel Converteren naar indicatorwaarden in azure Machine Learning Designer om kolommen te converteren die categorische waarden bevatten in een reeks binaire indicatorkolommen.

Met de bewerking Converteren naar indicatorwaarden kunt u categorische gegevens converteren naar indicatorwaarden die worden vertegenwoordigd door binaire of meerdere waarden. Dit proces is een van de stappen voor het vooraf verwerken van gegevens die vaak worden gebruikt voor classificatiemodellen.

Dit onderdeel voert ook een definitie uit van de transformatie die wordt gebruikt om te converteren naar indicatorwaarden. U kunt deze transformatie opnieuw gebruiken voor andere gegevenssets die hetzelfde schema hebben, met behulp van het onderdeel Transformatie toepassen.

Converteren naar indicatorwaarden configureren

  1. Zoek de waarden voor converteren naar indicator en sleep deze naar uw pijplijnconcept. U vindt dit onderdeel onder de categorie Gegevenstransformatie .

    Notitie

    U kunt het onderdeel Metagegevens bewerken gebruiken voordat u het onderdeel Converteren naar Indiciator-waarden gebruikt om de doelkolom(s) als categorisch te markeren.

  2. Verbind het onderdeel Converteren naar indicatorwaarden met de gegevensset met de kolommen die u wilt converteren.

  3. Selecteer Kolom bewerken om een of meer categorische kolommen te kiezen.

  4. Selecteer de optie Categorische kolommen overschrijven als u alleen de nieuwe Booleaanse kolommen wilt uitvoeren. Deze optie is standaard uitgeschakeld.

    Tip

    Als u de optie kiest om te overschrijven, wordt de bronkolom niet daadwerkelijk verwijderd of gewijzigd. In plaats daarvan worden de nieuwe kolommen gegenereerd en weergegeven in de uitvoergegevensset en blijft de bronkolom beschikbaar in de werkruimte. Als u de oorspronkelijke gegevens wilt zien, kunt u het onderdeel Kolommen toevoegen op elk gewenst moment gebruiken om de bronkolom weer toe te voegen.

  5. Verzend de pijplijn.

Resultaten

Stel dat u een kolom hebt met scores die aangeven of een server een hoge, gemiddelde of lage kans op fouten heeft.

Server-id Foutscore
10301 Beperkt
10302 Gemiddeld
10303 Hoog

Wanneer u Converteren toepast op indicatorwaarden, converteert de ontwerpfunctie één kolom met labels naar meerdere kolommen met Booleaanse waarden:

Server-id Foutscore - Laag Foutscore - gemiddeld Foutscore - Hoog
10301 1 0 0
10302 0 1 0
10303 0 0 1

De conversie werkt als volgt:

  • In de kolom Foutscore waarin risico's worden beschreven, zijn er slechts drie mogelijke waarden (Hoog, Gemiddeld en Laag) en geen ontbrekende waarden. Er worden dus precies drie nieuwe kolommen gemaakt.

  • De nieuwe indicatorkolommen worden benoemd op basis van de kolomkoppen en waarden van de bronkolom, met behulp van dit patroon: bronkolom>- <gegevenswaarde>.<

  • Er moet een 1 in precies één indicatorkolom zijn en 0 in alle andere indicatorkolommen, omdat elke server slechts één risicoclassificatie kan hebben.

U kunt nu de drie indicatorkolommen gebruiken als functies in een machine learning-model.

Het onderdeel retourneert twee uitvoerwaarden:

  • Resultatengegevensset: Een gegevensset met kolommen met geconverteerde indicatorwaarden. Kolommen die niet zijn geselecteerd voor reiniging, worden ook 'doorgegeven'.
  • Transformatie van indicatorwaarden: een gegevenstransformatie die wordt gebruikt voor het converteren naar indicatorwaarden, die later in uw werkruimte kan worden opgeslagen en op nieuwe gegevens kan worden toegepast.

Een opgeslagen indicatorwaardenbewerking toepassen op nieuwe gegevens

Als u indicatorwaarden vaak wilt herhalen, kunt u de stappen voor het bewerken van gegevens opslaan als een transformatie om deze opnieuw te gebruiken met dezelfde gegevensset. Dit is handig als u regelmatig opnieuw moet importeren en vervolgens gegevens met hetzelfde schema moet opschonen.

  1. Voeg het onderdeel Transformatie toepassen toe aan uw pijplijn.

  2. Voeg de gegevensset toe die u wilt opschonen en verbind de gegevensset met de rechterinvoerpoort.

  3. Vouw de groep Gegevenstransformatie uit in het linkerdeelvenster van de ontwerpfunctie. Zoek de opgeslagen transformatie en sleep deze naar de pijplijn.

  4. Verbind de opgeslagen transformatie met de linkerinvoerpoort van Apply Transformation.

    Wanneer u een opgeslagen transformatie toepast, kunt u niet selecteren welke kolommen u wilt transformeren. Dit komt doordat de transformatie is gedefinieerd en automatisch van toepassing is op de gegevenstypen die zijn opgegeven in de oorspronkelijke bewerking.

  5. Verzend de pijplijn.

Technische notities

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Tips voor gebruik

  • Alleen kolommen die als categorisch zijn gemarkeerd, kunnen worden geconverteerd naar indicatorkolommen. Als u de volgende fout ziet, is een van de geselecteerde kolommen waarschijnlijk niet categorisch:

    Fout 0056: Kolom met naamkolomnaam <> bevindt zich niet in een toegestane categorie.

    De meeste tekenreekskolommen worden standaard verwerkt als tekenreeksfuncties, dus u moet ze expliciet markeren als categorisch met behulp van metagegevens bewerken.

  • Er is geen limiet voor het aantal kolommen dat u kunt converteren naar indicatorkolommen. Omdat elke kolom met waarden echter meerdere indicatorkolommen kan opleveren, kunt u slechts een paar kolommen tegelijk converteren en controleren.

  • Als de kolom ontbrekende waarden bevat, wordt er een afzonderlijke indicatorkolom gemaakt voor de ontbrekende categorie, met deze naam: <bronkolom>- Ontbreekt

  • Als de kolom die u converteert naar indicatorwaarden getallen bevat, moeten ze worden gemarkeerd als categorisch, net als elke andere functiekolom. Nadat u dit hebt gedaan, worden de getallen beschouwd als discrete waarden. Als u bijvoorbeeld een numerieke kolom hebt met MPG-waarden variërend van 25 tot 30, wordt er een nieuwe indicatorkolom gemaakt voor elke discrete waarde:

    Maken Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30
    Contoso Cars 0 0 0 0 0 1
  • Om te voorkomen dat u te veel dimensies toevoegt aan uw gegevensset. U wordt aangeraden eerst het aantal waarden in de kolom te controleren en de gegevens op de juiste manier te kwantificeren of te kwantiseren.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.