Convert to Dataset (Converti in set di dati)
Questo articolo descrive come usare il componente Converti in set di dati nella finestra di progettazione di Azure Machine Learning per convertire i dati per una pipeline nel formato interno della finestra di progettazione.
La conversione non è necessaria nella maggior parte dei casi. Azure Machine Learning converte in modo implicito i dati nel formato del set di dati nativo quando viene eseguita un'operazione sui dati.
È consigliabile salvare i dati nel formato del set di dati se è stato eseguito un tipo di normalizzazione o pulizia su un set di dati e assicurarsi che le modifiche vengano usate in altre pipeline.
Nota
Converti in set di dati modifica solo il formato dei dati. Non salva una nuova copia dei dati nell'area di lavoro. Per salvare il set di dati, fare doppio clic sulla porta di output, selezionare Salva come set di dati e immettere un nuovo nome.
Come usare Converti in set di dati
È consigliabile usare il componente Modifica metadati per preparare il set di dati prima di usare Converti in set di dati. È possibile aggiungere o modificare i nomi delle colonne, modificare i tipi di dati e apportare altre modifiche in base alle esigenze.
Aggiungere il componente Converti in set di dati alla pipeline. È possibile trovare questo componente nella categoria Trasformazione Dati nella finestra di progettazione.
Connetterlo a qualsiasi componente che restituisce un set di dati.
Finché i dati sono tabulari, è possibile convertirli in un set di dati. Sono inclusi i dati caricati tramite l'importazione di dati, i dati creati tramite Invio manuale dei dati o i set di dati trasformati tramite Applica trasformazione.
Nell'elenco a discesa Azione indicare se si desidera eseguire operazioni di pulizia sui dati prima di salvare il set di dati:
Nessuno: usare i dati così come sono.
SetMissingValue: impostare un valore specifico su un valore mancante nel set di dati. Il segnaposto predefinito è il carattere punto interrogativo (?), ma è possibile usare l'opzione Valore mancante personalizzato per immettere un valore diverso. Ad esempio, se si immette taxi per valore mancante personalizzato, tutte le istanze di Taxi nel set di dati verranno modificate nel valore mancante.
ReplaceValues: usare questa opzione per specificare un singolo valore esatto da sostituire con qualsiasi altro valore esatto. È possibile sostituire valori mancanti o valori personalizzati impostando il metodo Replace :
- Mancante: scegliere questa opzione per sostituire i valori mancanti nel set di dati di input. Per Nuovo valore immettere il valore con cui sostituire i valori mancanti.
- Personalizzato: scegliere questa opzione per sostituire i valori personalizzati nel set di dati di input. Per Valore personalizzato immettere il valore che si desidera trovare. Ad esempio, se i dati contengono la stringa
obs
usata come segnaposto per i valori mancanti, immettereobs
. Per Nuovo valore immettere il nuovo valore con cui sostituire la stringa originale.
Si noti che l'operazione ReplaceValues si applica solo alle corrispondenze esatte. Ad esempio, queste stringhe non saranno interessate:
obs.
,obsolete
.Inviare la pipeline.
Risultati
- Per salvare il set di dati risultante con un nuovo nome, selezionare l'icona Registra set di dati nella scheda Output nel pannello destro del componente.
Note tecniche
Qualsiasi componente che accetta un set di dati come input può anche accettare dati nel file CSV o nel file TSV. Prima dell'esecuzione di qualsiasi codice del componente, gli input vengono pre-elaborati. La pre-elaborazione equivale all'esecuzione del componente Converti in set di dati nell'input.
Non è possibile eseguire la conversione dal formato SVMLight a un set di dati.
Quando si specifica un'operazione di sostituzione personalizzata, l'operazione di ricerca e sostituzione si applica ai valori completi. Le corrispondenze parziali non sono consentite. Ad esempio, è possibile sostituire 3 con -1 o con 33, ma non è possibile sostituire 3 in un numero a due cifre, ad esempio 35.
Per le operazioni di sostituzione personalizzate, la sostituzione avrà esito negativo automaticamente se si utilizza come carattere sostitutivo qualsiasi carattere non conforme al tipo di dati corrente della colonna.
Passaggi successivi
Vedere il set di componenti disponibili per Azure Machine Learning.