Trasformazione dei dati - Manipolazione
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Questo articolo descrive i moduli in Machine Learning Studio (versione classica) che è possibile usare per la manipolazione dei dati di base.
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Machine Learning Studio (versione classica) supporta attività specifiche di Machine Learning, ad esempio la normalizzazione o la selezione delle funzionalità. I moduli in questa categoria sono destinati ad attività più generali.
Attività di manipolazione dei dati
I moduli in questa categoria sono destinati a supportare le attività di gestione dei dati di base che potrebbero essere necessarie in Machine Learning Studio (versione classica). Le attività seguenti sono esempi di attività principali di gestione dei dati:
- Combinare due set di dati, usando join o unendo colonne o righe.
- Creare nuove categorie da usare nel raggruppamento dei dati.
- Modificare le intestazioni di colonna, modificare i tipi di dati delle colonne o contrassegnare le colonne come caratteristiche o etichette.
- Verificare la presenza di valori mancanti e quindi sostituirli con i valori appropriati.
Attività correlate
- Eseguire il campionamento o dividere un set di dati in set di training e di test: usare i moduli Trasformazione dati - Campione e Divisione .
- Ridimensionare i numeri, normalizzare i dati o inserire valori numerici in contenitori: usare i moduli Data Transformation - Scale and Reduce (Trasformazione dati - Ridimensionamento e riduzione).
- Eseguire calcoli su campi dati numerici o generare statistiche di uso comune: usare gli strumenti in Funzioni statistiche.
Esempio
Per esempi su come usare dati complessi negli esperimenti di Machine Learning, vedere questi esempi nel Azure AI Gallery:
- Elaborazione e analisi dei dati: illustra gli strumenti e i processi principali.
- Rilevamento del seno: illustra come partizionare i set di dati e quindi applicare un'elaborazione speciale a ogni partizione.
Moduli in questa categoria
La categoria Trasformazione dati - Manipolazione include i moduli seguenti:
- Aggiungi colonne: aggiunge un set di colonne da un set di dati a un altro.
- Aggiungi righe: aggiunge un set di righe da un set di dati di input alla fine di un altro set di dati.
- Applica SQL trasformazione: esegue una query SQLite sui set di dati di input per trasformare i dati.
- Pulisci dati mancanti: specifica come gestire i valori mancanti in un set di dati. Questo modulo sostituisce Missing Values Scrubber, che è stato deprecato.
- Converti in valori indicatore: converte i valori categorici nelle colonne in valori indicatore.
- Modifica metadati: modifica i metadati associati alle colonne in un set di dati.
- Raggruppa valori categorici: raggruppa i dati di più categorie in una nuova categoria.
- Join dei dati: unisce due set di dati.
- Rimuovi righe duplicate: rimuove le righe duplicate da un set di dati.
- Seleziona colonne nel set di dati: seleziona le colonne da includere in un set di dati o escludere da un set di dati in un'operazione.
- Trasformazione Seleziona colonne: crea una trasformazione che seleziona lo stesso subset di colonne di un set di dati specificato.
- SMOTE: aumenta il numero di esempi a bassa frequenza in un set di dati usando il sovracampionamento sintetico della minoranza.