Gegevenstransformatie - Manipulatie
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
In dit artikel worden de modules in Machine Learning Studio (klassiek) beschreven die u kunt gebruiken voor eenvoudige gegevensmanipulatie.
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Machine Learning Studio (klassiek) ondersteunt taken die specifiek zijn voor machine learning, zoals normalisatie of functieselectie. De modules in deze categorie zijn bedoeld voor meer algemene taken.
Gegevensmanipulatietaken
De modules in deze categorie zijn bedoeld ter ondersteuning van belangrijke gegevensbeheertaken die mogelijk moeten worden uitgevoerd in Machine Learning Studio (klassiek). De volgende taken zijn voorbeelden van belangrijke taken voor gegevensbeheer:
- Combineer twee gegevenssets, met behulp van joins of door kolommen of rijen samen te voegen.
- Maak nieuwe categorieën om te gebruiken bij het groeperen van gegevens.
- Kolomkoppen wijzigen, kolomgegevenstypen wijzigen of kolommen markeren als functies of labels.
- Controleer op ontbrekende waarden en vervang deze door de juiste waarden.
Gerelateerde taken
- Steekproeven uitvoeren of een gegevensset onderverdelen in trainings- en testsets: gebruik de modules Gegevenstransformatie - Voorbeeld en Splitsen .
- Getallen schalen, gegevens normaliseren of numerieke waarden in bins plaatsen: gebruik de modules Gegevenstransformatie - Schalen en Verminderen .
- Berekeningen uitvoeren op numerieke gegevensvelden of voor het genereren van veelgebruikte statistieken: Gebruik de hulpprogramma's in statistische functies.
Voorbeelden
Voor voorbeelden van het werken met complexe gegevens in machine learning experimenten, bekijkt u deze voorbeelden in de Azure AI Gallery:
- Gegevensverwerking en -analyse: toont de belangrijkste hulpprogramma's en processen.
- Detectie van borstkanker: illustreert hoe u gegevenssets partitioneert en vervolgens speciale verwerking op elke partitie kunt toepassen.
Modules in deze categorie
De categorie Gegevenstransformatie - Manipulatie omvat de volgende modules:
- Kolommen toevoegen: voegt een set kolommen van de ene gegevensset toe aan een andere.
- Rijen toevoegen: voegt een set rijen uit een invoerset toe aan het einde van een andere gegevensset.
- Een SQL toepassen: voert een SQLite-query uit op invoergegevenssets om de gegevens te transformeren.
- Ontbrekende gegevens ops schonen: hiermee geeft u op hoe waarden moeten worden verwerkt die ontbreken in een gegevensset. Deze module vervangt ontbrekende waarden, die is afgeschaft.
- Converteren naar indicatorwaarden: converteert categorische waarden in kolommen naar indicatorwaarden.
- Metagegevens bewerken: hiermee bewerkt u metagegevens die zijn gekoppeld aan kolommen in een gegevensset.
- Categorische waarden groeperen: groepeert gegevens uit meerdere categorieën in een nieuwe categorie.
- Join-gegevens: voegt twee gegevenssets samen.
- Dubbele rijen verwijderen: hiermee verwijdert u dubbele rijen uit een gegevensset.
- Selecteer Kolommen in gegevensset: selecteert kolommen die moeten worden opgesloten in een gegevensset of uitsluiten van een gegevensset in een bewerking.
- Kolommen transformeren selecteren: hiermee maakt u een transformatie waarmee dezelfde subset van kolommen wordt geselecteerd als in een opgegeven gegevensset.
- SMOTE: verhoogt het aantal voorbeelden met weinig voorval in een gegevensset door gebruik te maken van synthetische oversampling.