Converteren naar gegevensset

In dit artikel wordt beschreven hoe u het onderdeel Converteren naar gegevensset in azure Machine Learning Designer gebruikt om gegevens voor een pijplijn te converteren naar de interne indeling van de ontwerpfunctie.

Conversie is in de meeste gevallen niet vereist. Azure Machine Learning converteert gegevens impliciet naar de eigen indeling van de gegevensset wanneer er een bewerking op de gegevens wordt uitgevoerd.

We raden u aan gegevens op te slaan in de indeling van de gegevensset als u een soort normalisatie of opschoning van een set gegevens hebt uitgevoerd en u ervoor wilt zorgen dat de wijzigingen worden gebruikt in andere pijplijnen.

Notitie

Converteren naar gegevensset wijzigt alleen de indeling van de gegevens. Er wordt geen nieuwe kopie van de gegevens opgeslagen in de werkruimte. Als u de gegevensset wilt opslaan, dubbelklikt u op de uitvoerpoort, selecteert u Opslaan als gegevensset en voert u een nieuwe naam in.

Converteren naar gegevensset gebruiken

U wordt aangeraden het onderdeel Metagegevens bewerken te gebruiken om de gegevensset voor te bereiden voordat u Converteren naar gegevensset gebruikt. U kunt kolomnamen toevoegen of wijzigen, gegevenstypen aanpassen en indien nodig andere wijzigingen aanbrengen.

  1. Voeg het onderdeel Converteren naar gegevensset toe aan uw pijplijn. U vindt dit onderdeel in de categorie Gegevenstransformatie in de ontwerpfunctie.

  2. Verbind deze met elk onderdeel dat een gegevensset uitvoert.

    Zolang de gegevens in tabelvorm zijn, kunt u deze converteren naar een gegevensset. Dit omvat gegevens die zijn geladen via Importgegevens, gegevens die zijn gemaakt via Gegevens handmatig invoeren of gegevenssets die zijn getransformeerd via Transformatie toepassen.

  3. Geef in de vervolgkeuzelijst Actie aan of u de gegevens wilt opschonen voordat u de gegevensset opslaat:

    • Geen: Gebruik de gegevens zoals ze zijn.

    • SetMissingValue: stel een specifieke waarde in op een ontbrekende waarde in de gegevensset. De standaard tijdelijke aanduiding is het vraagteken (?), maar u kunt de optie Aangepaste ontbrekende waarde gebruiken om een andere waarde in te voeren. Als u bijvoorbeeld Taxi invoert voor Aangepaste ontbrekende waarde, worden alle instanties van Taxi in de gegevensset gewijzigd in de ontbrekende waarde.

    • VervangenWaarden: gebruik deze optie om één exacte waarde op te geven die moet worden vervangen door een andere exacte waarde. U kunt ontbrekende waarden of aangepaste waarden vervangen door de methode Replace in te stellen:

      • Ontbreekt: kies deze optie om ontbrekende waarden in de invoergegevensset te vervangen. Voer bij Nieuwe waarde de waarde in waarmee u de ontbrekende waarden wilt vervangen.
      • Aangepast: kies deze optie om aangepaste waarden in de invoergegevensset te vervangen. Voer bij Aangepaste waarde de waarde in die u wilt zoeken. Als uw gegevens bijvoorbeeld de tekenreeks obs bevatten die wordt gebruikt als tijdelijke aanduiding voor ontbrekende waarden, voert u in obs. Voer bij Nieuwe waarde de nieuwe waarde in waarmee u de oorspronkelijke tekenreeks wilt vervangen.

    Houd er rekening mee dat de bewerking ReplaceValues alleen van toepassing is op exacte overeenkomsten. Deze tekenreeksen worden bijvoorbeeld niet beïnvloed: obs., obsolete.

  4. Verzend de pijplijn.

Resultaten

  • Als u de resulterende gegevensset onder een nieuwe naam wilt opslaan, selecteert u het pictogram Gegevensset registreren onder het tabblad Uitvoer in het rechterdeelvenster van het onderdeel.

Technische opmerkingen

  • Elk onderdeel dat een gegevensset als invoer gebruikt, kan ook gegevens opnemen in het CSV-bestand of het TSV-bestand. Voordat een onderdeelcode wordt uitgevoerd, worden de invoergegevens vooraf verwerkt. Voorverwerking is gelijk aan het uitvoeren van het onderdeel Converteren naar gegevensset op de invoer.

  • U kunt de SVMLight-indeling niet converteren naar een gegevensset.

  • Wanneer u een aangepaste vervangingsbewerking opgeeft, is de zoek- en vervangbewerking van toepassing op volledige waarden. Gedeeltelijke overeenkomsten zijn niet toegestaan. U kunt bijvoorbeeld een 3 vervangen door een -1 of door 33, maar u kunt geen 3 vervangen in een getal van twee cijfers, zoals 35.

  • Voor aangepaste vervangingsbewerkingen mislukt de vervanging op de achtergrond als u als vervanging een teken gebruikt dat niet voldoet aan het huidige gegevenstype van de kolom.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.