Share via


Gegevenstransformatie - Voorbeeld en splitsen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel worden de modules in Machine Learning Studio (klassiek) beschreven die u kunt gebruiken om gegevens te partitioneren of te samplen.

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Het splitsen en nemen van steekproeven van gegevenssets zijn beide belangrijke taken in machine learning. Het is bijvoorbeeld gebruikelijk om gegevens te verdelen in trainings- en testsets om u te helpen een model te evalueren op basis van een holdout-gegevensset. Sampling is ook steeds belangrijker in het big data om ervoor te zorgen dat er een goede verdeling van klassen in uw trainingsgegevens is. Steekproeven zorgen er ook voor dat u niet meer gegevens verwerkt dan nodig is.

U kunt de modules Machine Learning Studio (klassiek) gebruiken om de manier aan te passen waarop u gegevenssets splitst of voorbeeldgegevenssets:

  • Filter trainingsgegevens op basis van een kenmerk in de gegevens.
  • Voer gelaagde steekproeven uit om de klassevariabele gelijkmatig te verdelen over n aantal groepen.
  • Verdeel brongegevens in een trainings- en testgegevensset met behulp van een aangepaste verhouding.
  • Pas reguliere expressies toe op de gegevens om ongeldige waarden te filteren.

De juiste bewerking kiezen: Splitsen of steekproeven

Machine Learning Studio (klassiek) biedt twee modules die taken inkapselden. De modules lijken op elkaar, maar hebben verschillende toepassingen en bieden aanvullende functionaliteit. Waarschijnlijk gebruikt u beide modules in een experiment om de juiste hoeveelheid en de juiste combinatie van gegevens op te halen.

Vervolgens vergelijken we de module Split Data en de module Partition en Sample door te kijken voor welke taken elke module vaak wordt gebruikt.

Gebruik van de module Split Data

  • Gegevens onderverdelen in twee groepen. Gebruik de module Split Data . De module produceert precies twee splitsingen van de gegevens. U kunt de voorwaarde opgeven waarop de gegevens worden gesplitst en het aandeel van de gegevens dat in elke subset moet worden gezet. Split Data slaat altijd de subset van gegevens op die niet aan de voorwaarden voldoen.
  • Labelwaarden gelijkmatig toewijzen aan gegevenssets. De optie voor stratify op een opgegeven kolom wordt ondersteund door beide modules. Als u echter twee gegevenssets wilt maken en vooral geïnteresseerd bent in de labelkolom, is de module Split Data een snelle oplossing.

Voorbeeld van het gebruik van de module Split Data

Stel dat u een zeer grote gegevensset hebt geïmporteerd uit een CSV-bestand. De gegevensset bevat demografische gegevens van klanten. U wilt verschillende modellen maken voor klanten in verschillende landen, dus besluit u de gegevens te splitsen met behulp van de waarde van de Country-Region kolom. Dit zijn de stappen die u moet uitvoeren om deze taak te voltooien:

  1. Voeg de module Split Data toe en geef vervolgens een expressie op in het Country-Region veld . De rest van de gegevens is beschikbaar op de secundaire uitvoer.
  2. Voeg nog een exemplaar van de module Split Data toe.
  3. Herhaal stap 1 en 2. Geef een ander land op in de expressie voor elke iteratie.

De module Split Data ondersteunt zowel reguliere expressies voor tekstgegevens als relatieve expressies voor numerieke gegevens.

De module Split Data biedt ook geavanceerde functionaliteit die u kunt gebruiken om gespecialiseerde gegevenssets te verdelen. Gebruik de functionaliteit om aanbevelingsmodellen te maken en om voorspellingen te genereren.

Gebruik van de partitie- en voorbeeldmodule

  • Steekproeven. Gebruik altijd de module Partition en Sample . De module biedt meerdere aanpasbare samplingmethoden, waaronder verschillende opties voor gelaagde steekproeven.
  • Cases toewijzen aan meerdere groepen. Gebruik de opties Toewijzen aan vouwenof Vouwen kiezen in de module Partitie en voorbeeld.
  • Alleen een subset van de gegevens retourneren. Gebruik de module Partition en Sample . De module geeft u de opgegeven subset op de primaire uitvoer. De resterende gegevens zijn beschikbaar op een secundaire uitvoer.
  • Haal alleen de bovenste 2000 rijen van een gegevensset op. Gebruik de module Partition en Sample . Selecteer de optie Head . Dit is vooral handig wanneer u een nieuw experiment test en korte proefversies van een werkstroom wilt uitvoeren.

Voorbeeld van het gebruik van de partitie- en voorbeeldmodule

De module Partition en Sample kan meerdere partities van de gegevens genereren, niet slechts twee. Tegelijkertijd kan het verschillende samplingbewerkingen uitvoeren.

Stel bijvoorbeeld dat u slechts 10 procent van uw gegevens hoeft op te halen, terwijl u ervoor moet zorgen dat de distributie van het doelkenmerk hetzelfde is als in de brongegevens. Dit zijn de stappen die u moet uitvoeren om deze taak te voltooien:

  1. Voeg de module Partition en Sample toe.
  2. Kies de steekproefmodus en geef vervolgens 10% op.
  3. Selecteer de optie voor gelaagde steekproeven en kies vervolgens de kolom die het doelkenmerk bevat.

Als u niet alle gegevens hoeft te bewaren, gebruikt u de module Partition en Sample . De resterende gegevens zijn nog steeds aanwezig in de werkruimte, maar hoeven niet verder te worden verwerkt als onderdeel van het experiment.

  • Verhoog het aantal zeldzame gevallen in een voorbeeld of herbalanceer de cases voor een doelwaarde: Gebruik de SMOTE-module .
  • Dimensionaliteitsvermindering uitvoeren door de combinatie van functies te vinden die het beste de gegevensruimte vertegenwoordigen: gebruik de module Analyse van hoofdcomponenten .
  • Compacte functies maken op basis van een analyse van functies en tellingen: gebruik de module Learning met tellingen.
  • Een weergave of projectie maken met alleen de opgegeven kolommen; kolommen in een gegevensset verwijderen of verbergen: gebruik de modules Kolommen in gegevensset selecteren en Toepassen SQL Transformatie.
  • Complexere gegevensfilters, groeperingen of transformaties toepassen: gebruik de modules Execute R Script en Apply SQL Transformation.

Lijst met modules

Deze categorie omvat de volgende modules:

  • Partitie en voorbeeld: hiermee maakt u meerdere partities van een gegevensset op basis van steekproeven.
  • Gegevens splitsen: partitioneert de rijen van een gegevensset in twee afzonderlijke sets.

Zie ook