Delen via


Converteren naar gegevensset

In dit artikel wordt beschreven hoe u het onderdeel Converteren naar gegevensset in Azure Machine Learning Designer gebruikt om gegevens voor een pijplijn te converteren naar de interne indeling van de ontwerper.

De conversie is in de meeste gevallen niet vereist. Azure Machine Learning converteert gegevens impliciet naar de systeemeigen indeling van de gegevensset wanneer een bewerking wordt uitgevoerd op de gegevens.

Het is raadzaam om gegevens op te slaan in de indeling van de gegevensset als u een soort normalisatie of reiniging hebt uitgevoerd op een set gegevens en u ervoor wilt zorgen dat de wijzigingen in andere pijplijnen worden gebruikt.

Notitie

Converteren naar gegevensset wijzigt alleen de indeling van de gegevens. Er wordt geen nieuwe kopie van de gegevens in de werkruimte opgeslagen. Als u de gegevensset wilt opslaan, dubbelklikt u op de uitvoerpoort, selecteert u Opslaan als gegevensset en voert u een nieuwe naam in.

Converteren naar gegevensset gebruiken

U wordt aangeraden het onderdeel Metagegevens bewerken te gebruiken om de gegevensset voor te bereiden voordat u Converteren naar gegevensset gebruikt. U kunt kolomnamen toevoegen of wijzigen, gegevenstypen aanpassen en indien nodig andere wijzigingen aanbrengen.

  1. Voeg het onderdeel Converteren naar gegevensset toe aan uw pijplijn. U vindt dit onderdeel in de categorie Gegevenstransformatie in de ontwerpfunctie.

  2. Verbind het met elk onderdeel dat een gegevensset uitvoert.

    Zolang de gegevens in tabelvorm zijn, kunt u deze converteren naar een gegevensset. Dit omvat gegevens die zijn geladen via importgegevens, gegevens die zijn gemaakt via Handmatig invoeren of gegevenssets die zijn getransformeerd via Transformatie toepassen.

  3. Geef in de vervolgkeuzelijst Actie aan of u de gegevens wilt opschonen voordat u de gegevensset opslaat:

    • Geen: Gebruik de gegevens zoals deze zijn.

    • SetMissingValue: Stel een specifieke waarde in op een ontbrekende waarde in de gegevensset. De standaard tijdelijke aanduiding is het vraagteken (?), maar u kunt de optie Aangepaste ontbrekende waarde gebruiken om een andere waarde in te voeren. Als u bijvoorbeeld Taxi voor aangepaste ontbrekende waarde invoert, worden alle exemplaren van Taxi in de gegevensset gewijzigd in de ontbrekende waarde.

    • ReplaceValues: Gebruik deze optie om één exacte waarde op te geven die moet worden vervangen door een andere exacte waarde. U kunt ontbrekende waarden of aangepaste waarden vervangen door de methode Replace in te stellen:

      • Ontbreekt: Kies deze optie om ontbrekende waarden in de invoergegevensset te vervangen. Voer voor Nieuwe waarde de waarde in om de ontbrekende waarden te vervangen door.
      • Aangepast: kies deze optie om aangepaste waarden in de invoergegevensset te vervangen. Voer voor aangepaste waarde de waarde in die u wilt zoeken. Als uw gegevens bijvoorbeeld de tekenreeks obs bevatten die wordt gebruikt als tijdelijke aanduiding voor ontbrekende waarden, voert u in obs. Voer voor Nieuwe waarde de nieuwe waarde in om de oorspronkelijke tekenreeks te vervangen door.

    Houd er rekening mee dat de bewerking ReplaceValues alleen van toepassing is op exacte overeenkomsten. Deze tekenreeksen worden bijvoorbeeld niet beïnvloed: obs., obsolete.

  4. Verzend de pijplijn.

Resultaten

  • Als u de resulterende gegevensset met een nieuwe naam wilt opslaan, selecteert u op het pictogram Gegevensset Registreren onder het tabblad Uitvoer in het rechterdeelvenster van het onderdeel.

Technische notities

  • Elk onderdeel dat een gegevensset als invoer gebruikt, kan ook gegevens opnemen in het CSV-bestand of het TSV-bestand. Voordat een onderdeelcode wordt uitgevoerd, worden de invoer vooraf verwerkt. Voorverwerking is gelijk aan het uitvoeren van het onderdeel Converteren naar gegevensset in de invoer.

  • U kunt de SVMLight-indeling niet converteren naar een gegevensset.

  • Wanneer u een aangepaste vervangingsbewerking opgeeft, is de bewerking zoeken en vervangen van toepassing op volledige waarden. Gedeeltelijke overeenkomsten zijn niet toegestaan. U kunt bijvoorbeeld een 3 vervangen door een -1 of 33, maar u kunt een 3 niet vervangen in een getal met twee cijfers, zoals 35.

  • Voor aangepaste vervangingsbewerkingen mislukt de vervanging op de achtergrond als u een vervangend teken gebruikt dat niet voldoet aan het huidige gegevenstype van de kolom.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.