Gegevens handmatig invoeren
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik het onderdeel Gegevens handmatig invoeren om een kleine gegevensset te maken door waarden te typen. De gegevensset kan meerdere kolommen hebben.
Dit onderdeel kan nuttig zijn in scenario's zoals:
- Een kleine set waarden genereren voor testen.
- Een korte lijst met labels maken.
- Typ een lijst met kolomnamen die u wilt invoegen in een gegevensset.
Een gegevensset maken
Voeg het onderdeel Gegevens handmatig invoeren toe aan uw pijplijn. U vindt dit onderdeel in de categorie Gegevensinvoer en -uitvoer in Azure Machine Learning.
Selecteer een van de volgende opties voor DataFormat. Deze opties bepalen hoe de gegevens die u opgeeft, moeten worden geparseerd. De vereisten voor elke indeling verschillen sterk, dus lees de gerelateerde onderwerpen.
- ARFF: Kenmerk-relationele bestandsindeling die wordt gebruikt door Weka.
- CSV: indeling met door komma's gescheiden waarden. Zie Converteren naar CSV voor meer informatie.
- SVMLight: Indeling die wordt gebruikt door Vowpal Wabbit en andere machine learning-frameworks.
- TSV: indeling met door tabs gescheiden waarden.
Als u een indeling kiest en geen gegevens opgeeft die voldoen aan de indelingsspecificaties, treedt er een runtimefout op.
Klik in het tekstvak Gegevens om gegevens in te voeren. Voor de volgende indelingen is speciale aandacht vereist:
CSV: Als u meerdere kolommen wilt maken, plakt u door komma's gescheiden tekst of typt u meerdere kolommen met komma's tussen velden.
Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden gebruiken als kolomkop.
Als u deze optie uitschakelt, worden de kolomnamen (Col1, Col2, enzovoort) gebruikt. U kunt later kolomnamen toevoegen of wijzigen met behulp van Metagegevens bewerken.
TSV: Als u meerdere kolommen wilt maken, plakt u door tabs gescheiden tekst of typt u meerdere kolommen met behulp van tabs tussen velden.
Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden gebruiken als kolomkop.
Als u deze optie uitschakelt, worden de kolomnamen (Col1, Col2, enzovoort) gebruikt. U kunt later kolomnamen toevoegen of wijzigen met behulp van Metagegevens bewerken.
ARFF: Plak een bestaand ARFF-indelingsbestand. Als u waarden rechtstreeks typt, moet u de optionele header en de vereiste kenmerkvelden aan het begin van de gegevens toevoegen.
De volgende veldnamen en kenmerkrijen kunnen bijvoorbeeld worden toegevoegd aan een eenvoudige lijst. De kolomkop zou zijn
SampleText
. Houd er rekening mee dat het tekenreekstype niet wordt ondersteund.% Title: SampleText.ARFF % Source: Enter Data component @ATTRIBUTE SampleText NUMERIC @DATA \<type first data row here>
SVMLight: Typ of plak waarden met behulp van de SVMLight-indeling.
Het volgende voorbeeld vertegenwoordigt bijvoorbeeld de eerste paar regels van de gegevensset Bloeddonatie, in SVMLight-indeling:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
Wanneer u het onderdeel Gegevens handmatig invoeren uitvoert, worden deze regels als volgt geconverteerd naar een gegevensset met kolommen en indexwaarden:
Col1 Col2 Col3 Col4 Etiketten 0.00016 0,004 0.999961 0.00784 1 0 0,004 0.999955 0.008615 1
Selecteer de Enter-toets na elke rij om een nieuwe regel te starten.
Als u Enter meerdere keren selecteert om meerdere lege volgrijen toe te voegen, worden de lege rijen verwijderd of ingekort.
Als u rijen met ontbrekende waarden maakt, kunt u deze later altijd uitfilteren.
Verbind de uitvoerpoort met andere onderdelen en voer de pijplijn uit.
Als u de gegevensset wilt weergeven, klikt u met de rechtermuisknop op het onderdeel en selecteert u Visualiseren.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.