Delen via


Gegevens splitsen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Hiermee worden de rijen van een gegevensset gepartities in twee afzonderlijke sets

Categorie: Gegevenstransformatie/ Voorbeeld en splitsen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit onderwerp wordt beschreven hoe u de module Split Data in Machine Learning Studio (klassiek) gebruikt om een gegevensset in twee afzonderlijke sets te verdelen.

Deze module is vooral nuttig wanneer u gegevens wilt scheiden in trainings- en testsets. U kunt ook de manier aanpassen waarop gegevens worden verdeeld. Sommige opties ondersteunen randomisatie van gegevens; andere zijn afgestemd op een bepaald gegevenstype of modeltype.

Split Data configureren

Tip

Lees voordat u de splitsmodus kiest alle opties om het splitsingstype te bepalen dat u nodig hebt. Als u de splitsmodus wijzigt, kunnen alle andere opties opnieuw worden ingesteld.

  1. Voeg de module Split Data toe aan uw experiment in Studio. U vindt deze module onder Gegevenstransformatie in de categorie Voorbeeld en Splitsen.

  2. Splitsingsmodus: kies een van de volgende modi, afhankelijk van het type gegevens dat u hebt en hoe u deze wilt delen. Elke splitsmodus heeft verschillende opties. Klik op de volgende onderwerpen voor gedetailleerde instructies en voorbeelden.

    • Rijen splitsen: gebruik deze optie als u alleen de gegevens in twee delen wilt verdelen. U kunt het percentage gegevens opgeven dat in elke splitsing moet worden gezet, maar de gegevens worden standaard 50-50 gedeeld.

      U kunt ook de selectie van rijen in elke groep willekeurig maken en gelaagde steekproeven gebruiken. In gelaagde steekproeven moet u één kolom met gegevens selecteren waarvoor u waarden gelijkmatig wilt toevoegen aan de twee resultaatgegevenssets.

    • Aanbevelingssplitsing: kies altijd deze optie als u gegevens voorbereidt voor gebruik in een aanbevelingssysteem. Hiermee kunt u gegevenssets onderverdelen in trainings- en testgroepen, terwijl u ervoor zorgt dat belangrijke waarden, zoals gebruikersitemparen of classificaties, gelijkmatig over de groepen worden verdeeld.

    • Splitsing in reguliere expressie: kies deze optie wanneer u uw gegevensset wilt delen door één kolom te testen voor een waarde.

      Als u bijvoorbeeld sentiment analyseert, kunt u controleren op de aanwezigheid van een bepaalde productnaam in een tekstveld en vervolgens de gegevensset onderverdelen in rijen met de doelproductnaam en de gegevens zonder.

    • Relatieve expressie splitsen: gebruik deze optie wanneer u een voorwaarde wilt toepassen op een getalkolom. Het getal kan een datum/tijd-veld zijn, een kolom met leeftijd of dollarbedragen of zelfs een percentage. U kunt bijvoorbeeld uw gegevensset onderverdelen op basis van de kosten van de items, mensen groeperen op leeftijdsbereiken of gegevens scheiden op kalenderdatum.

Vereisten

  • Split Data kan maximaal twee gegevenssets tegelijk maken en deze sets moeten exclusief zijn.

    Als u dus een complexe splitsing met meerdere voorwaarden en uitvoer hebt, moet u mogelijk meerdere Split Data-modules aan elkaar vastketenen.

    U kunt ook een CASE-instructie en de module Apply SQL Transformation gebruiken.

  • Deze module verwijdert geen gegevens uit de gegevensset; Hiermee worden alleen de gegevens, zoals opgegeven, verdeeld over de eerste en tweede uitvoer van de module.

  • Het splitsen van gegevens voor een aanbevelingssysteem brengt enkele aanvullende vereisten met zich mee. Over het algemeen kan de gegevensset alleen bestaan uit gebruikersitemparen of drie keer dezelfde gebruikersitemclassificatie. Daarom kan de module Split Data niet werken op gegevenssets met meer dan drie kolommen, om verwarring met gegevens van het type functie te voorkomen. Als uw gegevensset te veel kolommen bevat, krijgt u mogelijk deze foutmelding:

    Fout 0022: Het aantal geselecteerde kolommen in de invoerset is niet gelijk aan x

    Als tijdelijke oplossing kunt u Kolommen in gegevensset selecteren gebruiken om enkele kolommen te verwijderen en de kolommen later toevoegen met Behulp van Kolommen toevoegen. Als uw gegevensset veel functies heeft die u in het model wilt gebruiken, verdeelt u de gegevensset met een andere optie en traint u het model met Train Model in plaats van Train Matchbox Recommender.

Voorbeelden

Zie de volgende informatie voor voorbeelden van hoe de module Split DataAzure AI Gallery:

  • Kruisvalidatie voor binaire classificatie: gegevensset voor volwassenen: Er wordt een steekproeffrequentie van 20% toegepast om een kleinere gegevensset met willekeurige steekproeven te maken. (De oorspronkelijke volkstellingsgegevensset had meer dan 30.000 rijen; de trainingsgegevensset heeft ongeveer 6500). De gegevensset wordt opgeschoond voor ontbrekende waarden en vervolgens doorgegeven aan vijf verschillende modellen voor training en kruisvalidatie.

Technische opmerkingen

De volgende vereisten zijn van toepassing op alle toepassingen van Split Data:

  • De invoerset moet ten minste twee rijen bevatten, anders trijt er een fout.
  • Als u de optie gebruikt om het gewenste aantal rijen op te geven, moet het opgegeven getal een positief geheel getal zijn en moet het aantal kleiner zijn dan het totale aantal rijen in de gegevensset.
  • Als u een getal opgeeft als een percentage of als u een tekenreeks gebruikt die het teken %bevat, wordt de waarde geïnterpreteerd als een percentage. Alle percentagewaarden moeten binnen het bereik (0, 100) zijn, met inbegrip van de waarden 0 en 100.
  • Als u een getal of percentage opgeeft dat een drijvende-puntnummer kleiner is dan één en u het procentsymbool (%) niet gebruikt, wordt het getal geïnterpreteerd als een evenredige waarde.
  • Als u de optie voor een gelaagde splitsing gebruikt, kunnen de uitvoersets verder worden gedeeld door subgroepen door een strata-kolom te selecteren.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Te splitsen gegevensset

Moduleparameters

Naam Type Bereik Optioneel Description Standaard
Splitsmodus Splitsmodus Rijen splitsen, Aanbevelings splitsen, Reguliere expressie of Relatieve expressie Vereist Rijen splitsen De methode kiezen voor het splitsen van de gegevensset

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten1 Gegevenstabel Gegevensset met geselecteerde rijen
Gegevensset met resultaten2 Gegevenstabel Gegevensset die alle andere rijen bevat

Zie ook

Voorbeeld en splitsen
Partitie en voorbeeld
Lijst met A-Z-modules