Partitie- en voorbeeldonderdeel

In dit artikel wordt een onderdeel in azure Machine Learning Designer beschreven.

Gebruik het onderdeel Partitie en voorbeeld om steekproeven uit te voeren op een gegevensset of om partities te maken op basis van uw gegevensset.

Steekproeven zijn een belangrijk hulpmiddel in machine learning, omdat u hiermee de grootte van een gegevensset kunt verkleinen terwijl u dezelfde verhouding van waarden behoudt. Dit onderdeel ondersteunt verschillende gerelateerde taken die belangrijk zijn in machine learning:

  • Uw gegevens opsplitsen in meerdere subsecties van dezelfde grootte.

    U kunt de partities gebruiken voor kruisvalidatie of om cases toe te wijzen aan willekeurige groepen.

  • Gegevens scheiden in groepen en vervolgens werken met gegevens uit een specifieke groep.

    Nadat u willekeurig cases aan verschillende groepen hebt toegewezen, moet u mogelijk de functies wijzigen die aan slechts één groep zijn gekoppeld.

  • Bemonstering.

    U kunt een percentage van de gegevens extraheren, willekeurige steekproeven toepassen of een kolom kiezen om de gegevensset in balans te brengen en gelaagde steekproeven uit te voeren op de waarden.

  • Een kleinere gegevensset maken om te testen.

    Als u veel gegevens hebt, wilt u mogelijk alleen de eerste n rijen gebruiken tijdens het instellen van de pijplijn en vervolgens overschakelen naar het gebruik van de volledige gegevensset wanneer u uw model bouwt. U kunt ook steekproeven gebruiken om een kleinere gegevensset te maken voor gebruik in ontwikkeling.

Het onderdeel configureren

Dit onderdeel ondersteunt de volgende methoden voor het verdelen van uw gegevens in partities of voor steekproeven. Kies eerst de methode en stel vervolgens aanvullende opties in die voor de methode vereist zijn.

  • Head
  • Steekproeven
  • Toewijzen aan vouwen
  • Pick fold

N bovenste rijen ophalen uit een gegevensset

Gebruik deze modus om alleen de eerste n rijen op te halen. Deze optie is handig als u een pijplijn wilt testen op een klein aantal rijen en u niet nodig hebt dat de gegevens in balans worden gebracht of op welke manier dan ook worden bemonsterd.

  1. Voeg het onderdeel Partition and Sample toe aan uw pijplijn in de interface en verbind de gegevensset.

  2. Partitie- of voorbeeldmodus: stel deze optie in op Head.

  3. Aantal rijen dat u wilt selecteren: voer het aantal rijen in dat moet worden geretourneerd.

    Het aantal rijen moet een niet-negatief geheel getal zijn. Als het aantal geselecteerde rijen groter is dan het aantal rijen in de gegevensset, wordt de hele gegevensset geretourneerd.

  4. Verzend de pijplijn.

Het onderdeel voert één gegevensset uit die alleen het opgegeven aantal rijen bevat. De rijen worden altijd gelezen vanaf de bovenkant van de gegevensset.

Een voorbeeld van gegevens maken

Deze optie ondersteunt eenvoudige willekeurige steekproeven of gestratificeerde willekeurige steekproeven. Dit is handig als u een kleinere representatieve voorbeeldgegevensset wilt maken voor het testen.

  1. Voeg het onderdeel Partition and Sample toe aan uw pijplijn en verbind de gegevensset.

  2. Partitie- of voorbeeldmodus: stel deze optie in op Sampling.

  3. Frequentie van steekproeven: voer een waarde in tussen 0 en 1. deze waarde geeft het percentage rijen uit de brongegevensset op dat moet worden opgenomen in de uitvoergegevensset.

    Als u bijvoorbeeld slechts de helft van de oorspronkelijke gegevensset wilt, voert u in 0.5 om aan te geven dat de steekproeffrequentie 50 procent moet zijn.

    De rijen van de invoergegevensset worden in willekeurige volgorde geplaatst en selectief in de uitvoergegevensset geplaatst, volgens de opgegeven verhouding.

  4. Willekeurig zaad voor steekproeven: voer desgewenst een geheel getal in dat als seed-waarde moet worden gebruikt.

    Deze optie is belangrijk als u wilt dat de rijen elke keer op dezelfde manier worden verdeeld. De standaardwaarde is 0, wat betekent dat er een begin-seed wordt gegenereerd op basis van de systeemklok. Deze waarde kan leiden tot iets andere resultaten telkens wanneer u de pijplijn uitvoert.

  5. Gelaagde splitsing voor steekproeven: selecteer deze optie als het belangrijk is dat de rijen in de gegevensset gelijkmatig worden gedeeld door een sleutelkolom voordat u steekproeven gaat nemen.

    Voor de kolom Stratification-sleutel voor steekproeven selecteert u één strata-kolom die u wilt gebruiken bij het delen van de gegevensset. De rijen in de gegevensset worden vervolgens als volgt verdeeld:

    1. Alle invoerrijen worden gegroepeerd (gestratificeerd) op basis van de waarden in de opgegeven kolom strata.

    2. Rijen worden in willekeurige volgorde gerangschikt binnen elke groep.

    3. Elke groep wordt selectief toegevoegd aan de uitvoergegevensset om te voldoen aan de opgegeven verhouding.

  6. Verzend de pijplijn.

    Met deze optie voert het onderdeel één gegevensset uit die een representatieve steekproef van de gegevens bevat. Het resterende, niet-gesampelde gedeelte van de gegevensset wordt niet uitgevoerd.

Gegevens splitsen in partities

Gebruik deze optie als u de gegevensset wilt opdelen in subsets van de gegevens. Deze optie is ook handig als u een aangepast aantal vouwen wilt maken voor kruisvalidatie of als u rijen wilt splitsen in verschillende groepen.

  1. Voeg het onderdeel Partition and Sample toe aan uw pijplijn en verbind de gegevensset.

  2. Voor Partitie- of voorbeeldmodus selecteert u Toewijzen aan vouwen.

  3. Vervanging gebruiken in de partitionering: selecteer deze optie als u wilt dat de voorbeeldrij weer in de pool met rijen wordt geplaatst voor mogelijk hergebruik. Als gevolg hiervan kan dezelfde rij aan meerdere vouwen worden toegewezen.

    Als u vervanging niet gebruikt (de standaardoptie), wordt de voorbeeldrij niet teruggezet in de pool met rijen voor mogelijk hergebruik. Als gevolg hiervan kan elke rij aan slechts één vouw worden toegewezen.

  4. Gerandomiseerde splitsing: selecteer deze optie als u rijen willekeurig wilt toewijzen aan vouwen.

    Als u deze optie niet selecteert, worden rijen toegewezen aan vouwen via de round robin-methode.

  5. Willekeurig zaad: voer desgewenst een geheel getal in dat als seed-waarde moet worden gebruikt. Deze optie is belangrijk als u wilt dat de rijen elke keer op dezelfde manier worden verdeeld. Anders betekent de standaardwaarde 0 dat er een willekeurige start-seed wordt gebruikt.

  6. Geef de partitionermethode op: Geef aan hoe u gegevens wilt toewijzen aan elke partitie met behulp van de volgende opties:

    • Gelijkmatig partitioneren: gebruik deze optie om een gelijk aantal rijen in elke partitie te plaatsen. Als u het aantal uitvoerpartities wilt opgeven, typt u een geheel getal in het vak Aantal vouwen opgeven dat gelijkmatig moet worden gesplitst .

    • Partitie met aangepaste verhoudingen: gebruik deze optie om de grootte van elke partitie op te geven als een door komma's gescheiden lijst.

      Stel dat u drie partities wilt maken. De eerste partitie bevat 50 procent van de gegevens. De resterende twee partities bevatten elk 25 procent van de gegevens. Voer in het vak Lijst met verhoudingen, gescheiden door komma's , de volgende getallen in: .5, .25, .25.

      De som van alle partitiegrootten moet optellen tot precies 1.

      Als u getallen invoert die kleiner zijn dan 1, wordt er een extra partitie gemaakt voor de resterende rijen. Als u bijvoorbeeld de waarden .2 en .3 invoert, wordt er een derde partitie gemaakt voor de resterende 50 procent van alle rijen.

      Als u getallen invoert die groter zijn dan 1, treedt er een fout op wanneer u de pijplijn uitvoert.

  7. Gestratificeerde splitsing: selecteer deze optie als u wilt dat de rijen worden gestratificeerd bij het splitsen en kies vervolgens de kolom Strata.

  8. Verzend de pijplijn.

    Met deze optie voert het onderdeel meerdere gegevenssets uit. De gegevenssets worden gepartitioneerd volgens de regels die u hebt opgegeven.

Gegevens van een vooraf gedefinieerde partitie gebruiken

Gebruik deze optie als u een gegevensset in meerdere partities hebt verdeeld en nu elke partitie op zijn beurt wilt laden voor verdere analyse of verwerking.

  1. Voeg het onderdeel Partition and Sample toe aan de pijplijn.

  2. Verbind het onderdeel met de uitvoer van een eerder exemplaar van Partition en Sample. Dat exemplaar moet de optie Toewijzen aan vouwen hebben gebruikt om een aantal partities te genereren.

  3. Partitie- of voorbeeldmodus: Selecteer Vouw kiezen.

  4. Geef op uit welke vouw u een steekproef wilt nemen: selecteer een partitie die u wilt gebruiken door de index in te voeren. Partitie-indexen zijn gebaseerd op 1. Als u de gegevensset bijvoorbeeld in drie delen opsplitst, hebben de partities de indexen 1, 2 en 3.

    Als u een ongeldige indexwaarde invoert, treedt er een ontwerpfout op: 'Fout 0018: Gegevensset bevat ongeldige gegevens'.

    Naast het groeperen van de gegevensset op vouwen, kunt u de gegevensset in twee groepen verdelen: een doelvouw en al het andere. Voer hiervoor de index van één vouw in en selecteer vervolgens de optie Aanvulling kiezen van de geselecteerde vouw om alles behalve de gegevens in de opgegeven vouw op te halen.

  5. Als u met meerdere partities werkt, moet u meer exemplaren van het onderdeel Partitie en Voorbeeld toevoegen om elke partitie te verwerken.

    Het onderdeel Partition and Sample in de tweede rij is bijvoorbeeld ingesteld op Assign to Folds en het onderdeel in de derde rij is ingesteld op Pick Fold.

    Partitie en voorbeeld

  6. Verzend de pijplijn.

    Met deze optie voert het onderdeel één gegevensset uit die alleen de rijen bevat die aan die vouw zijn toegewezen.

Notitie

U kunt de vouwaanduidingen niet rechtstreeks bekijken. Ze zijn alleen aanwezig in de metagegevens.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.