Delen via


Gegevens splitsen met splitsrijen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de optie Rijen splitsen gebruikt in de module Split Data van Machine Learning Studio (klassiek). Deze optie is met name handig wanneer u gegevenssets die worden gebruikt voor training en testen, willekeurig of volgens bepaalde criteria moet verdelen.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

De optie Split Rows ondersteunt zowel willekeurige als gelaagde splitsingen. U kunt bijvoorbeeld een splitsing van 70-30 of een splitsing van 10-90 opgeven, met uw doelvariabele die evenveel wordt weergegeven in beide gegevenssets.

Zie Split Data and Partition and Split (Gegevens splitsen en partitioneren en splitsen) machine learning algemene informatie over gegevenspartitie voor machine learning experimenten.

Andere opties in de module Split Data ondersteunen verschillende manieren om de gegevens te delen:

Een gegevensset onderverdelen in twee groepen

  1. Voeg de module Split Data toe aan uw experiment in Studio (klassiek) en koppel de gegevensset die u wilt splitsen.

  2. Kies voor Split mode de optie Split rows.

  3. Fractie van rijen in de eerste uitvoerset. Gebruik deze optie om te bepalen hoeveel rijen er in de eerste (linker)uitvoer komen. Alle andere rijen gaan naar de tweede (rechtse) uitvoer.

    De verhouding vertegenwoordigt het percentage rijen dat wordt verzonden naar de eerste uitvoerset, dus u moet een decimaal getal tussen 0 en 1 typen.

    Als u bijvoorbeeld 0,75 als waarde typt, wordt de gegevensset gesplitst met een verhouding van 75:25, met 75% van de rijen die naar de eerste uitvoerset worden verzonden en 25% naar de tweede uitvoerset.

  4. Selecteer de optie Willekeurig splitsen als u de selectie van gegevens in de twee groepen willekeurig wilt maken. Dit is de voorkeursoptie bij het maken van trainings- en testsets.

  5. Random Seed: typ een niet-negatief geheel getal om de pseudorandomvolgorde van te gebruiken exemplaren te initialiseren. Deze standaard seed wordt gebruikt in alle modules die willekeurige getallen genereren.

    Als u een seed opgeeft, worden de resultaten over het algemeen reproduceerbaar. Als u de resultaten van een splitsingsbewerking wilt herhalen, moet u een seed opgeven voor de generator voor willekeurige getallen. Anders wordt de willekeurige seed standaard ingesteld op 0, wat betekent dat de eerste seed-waarde wordt verkregen van de systeemklok. Als gevolg hiervan kan de verdeling van gegevens enigszins verschillen telkens wanneer u een splitsing uit te voeren.

  6. Gelaagde splitsing: stel deze optie in op Waar om ervoor te zorgen dat de twee uitvoergegevenssets een representatieve steekproef van de waarden in de kolom strata of de kolom stratification key bevatten.

    Bij gelaagde steekproeven worden de gegevens zodanig verdeeld dat elke uitvoergegevensset ongeveer hetzelfde percentage van elke doelwaarde krijgt. U wilt er bijvoorbeeld voor zorgen dat uw trainings- en testsets grofweg in balans zijn met betrekking tot het resultaat of met betrekking tot een andere kolom, zoals geslacht.

  7. Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.

Voorbeelden

In de volgende voorbeelden wordt gedemonstreerd hoe u eenvoudige splitsingen kunt uitvoeren met behulp van de modus Rijen splitsen .

Splitsen in twee gelijke delen

Voeg de module Split Data toe na de gegevensset zonder andere wijzigingen. Standaard splitst de module de gegevensset in twee gelijke delen. Voor gegevens met een oneven aantal rijen krijgt de tweede uitvoer de rest.

Splitsen in derde

Stel dat u een gegevensset in twee delen wilt splitsen, met een derde van de gegevens die worden gebruikt voor de training en de rest voor testen of aanvullende splitsingen.

Hiervoor voegt u een module Split Data toe en stelt u fraction of rows in the first output in op 0,33. De tweede uitvoer bevat de resterende twee derde.

Als u de tweede uitvoer wilt onderverdelen in gelijke delen, voegt u nog een exemplaar van de module Split Data toe en gebruikt u deze keer de standaardinstelling voor een splitsing van 50-50.

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Implementatiegegevens

  • Voor deze module moet de gegevensset ten minste twee rijen bevatten; anders wordt er een foutmelding weergegeven.

  • Als u de optie gebruikt om het gewenste aantal rijen op te geven, moet het opgegeven getal een positief geheel getal zijn en moet het aantal kleiner zijn dan het totale aantal rijen in de gegevensset.

  • Alle percentagewaarden moeten binnen het bereik 0 en 1 zijn.

  • Als u een getal of percentage opgeeft als een drijvende-puntnummer kleiner dan één getal en u het procentsymbool () niet gebruikt, wordt het getal geïnterpreteerd als een evenredige waarde.

Aanvullende vereisten voor gelaagde steekproeven

  • De strata-kolom kan alleen nominale of categorische gegevens bevatten. Als de kolom continue numerieke gegevens bevat, wordt er een foutbericht weergegeven.

  • Een kolom met te veel unieke waarden is geen goede kandidaat voor stratification. U kunt proberen om bepaalde categorieën samen te vouwen of waarden vooraf te groeperen.

Zie ook

Sample enSplitPartition en Sample