Kolomtransformatie selecteren

In dit artikel wordt beschreven hoe u het onderdeel Select Columns Transform gebruikt in azure Machine Learning Designer. Het doel van het onderdeel Select Columns Transform is ervoor te zorgen dat een voorspelbare, consistente set kolommen wordt gebruikt in downstream machine learning-bewerkingen.

Dit onderdeel is handig voor taken zoals scoren, waarvoor specifieke kolommen zijn vereist. Wijzigingen in de beschikbare kolommen kunnen de pijplijn verbreken of de resultaten wijzigen.

U gebruikt Transformatie kolommen selecteren om een set kolommen te maken en op te slaan. Gebruik vervolgens het onderdeel Transformatie toepassen om deze selecties toe te passen op nieuwe gegevens.

Transformatie van select columns gebruiken

In dit scenario wordt ervan uitgegaan dat u functieselectie wilt gebruiken om een dynamische set kolommen te genereren die wordt gebruikt voor het trainen van een model. Om ervoor te zorgen dat kolomselecties hetzelfde zijn voor het scoreproces, gebruikt u het onderdeel Kolommen transformeren selecteren om de kolomselecties vast te leggen en deze elders in de pijplijn toe te passen.

  1. Voeg een invoergegevensset toe aan uw pijplijn in de ontwerpfunctie.

  2. Voeg een exemplaar van functieselectie op basis van filters toe.

  3. Verbind de onderdelen en configureer het onderdeel voor functieselectie om automatisch een aantal beste functies in de invoergegevensset te vinden.

  4. Voeg een exemplaar van Train Model toe en gebruik de uitvoer van Functieselectie op basis van filters als invoer voor training.

    Belangrijk

    Omdat het belang van functies is gebaseerd op de waarden in de kolom, kunt u van tevoren niet weten welke kolommen mogelijk beschikbaar zijn voor invoer voor Train Model.

  5. Koppel een exemplaar van het onderdeel Select Columns Transform.

    Met deze stap wordt een kolomselectie gegenereerd als een transformatie die kan worden opgeslagen of toegepast op andere gegevenssets. Deze stap zorgt ervoor dat de kolommen die in de functieselectie worden geïdentificeerd, worden opgeslagen zodat andere onderdelen opnieuw kunnen worden gebruikt.

  6. Voeg het onderdeel Score Model toe.

    Maak geen verbinding met de invoergegevensset. Voeg in plaats daarvan het onderdeel Transformatie toepassen toe en koppel de uitvoer van de functieselectietransformatie.

    De pijplijnstructuur moet er als volgt uitzien:

    Voorbeeldpijplijn

    Belangrijk

    U kunt niet verwachten dat u op filter gebaseerde functieselectie toepast op de scoregegevensset en dezelfde resultaten krijgt. Omdat de functieselectie is gebaseerd op waarden, kan er een andere set kolommen worden gekozen, waardoor de scorebewerking mislukt.

  7. Verzend de pijplijn.

Dit proces van het opslaan en vervolgens toepassen van een kolomselectie zorgt ervoor dat hetzelfde gegevensschema beschikbaar is voor training en scoren.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.