Share via


Eseguire la conversione in set di dati

Questo articolo descrive come usare il componente Convert to Dataset in Azure Machine Learning designer per convertire i dati per una pipeline nel formato interno della finestra di progettazione.

La conversione non è necessaria nella maggior parte dei casi. Azure Machine Learning converte in modo implicito i dati nel formato del set di dati nativo quando viene eseguita qualsiasi operazione sui dati.

È consigliabile salvare i dati nel formato del set di dati se sono stati eseguiti alcuni tipi di normalizzazione o pulizia in un set di dati e si vuole assicurarsi che le modifiche vengano usate in altre pipeline.

Nota

Convertire in Set di dati modifica solo il formato dei dati. Non salva una nuova copia dei dati nell'area di lavoro. Per salvare il set di dati, fare doppio clic sulla porta di output, selezionare Salva come set di dati e immettere un nuovo nome.

Come usare Convert to Dataset

È consigliabile usare il componente Modifica metadati per preparare il set di dati prima di usare Convert to Dataset. È possibile aggiungere o modificare i nomi di colonna, modificare i tipi di dati e apportare altre modifiche in base alle esigenze.

  1. Aggiungere il componente Convert to Dataset alla pipeline. È possibile trovare questo componente nella categoria Trasformazione dati nella finestra di progettazione.

  2. Connettersi a qualsiasi componente che restituisce un set di dati.

    Purché i dati vengano tabulari, è possibile convertirlo in un set di dati. Ciò include i dati caricati tramite Importa dati, dati creati tramite Invio manuale dei dati o set di dati trasformati tramite Applica trasformazione.

  3. Nell'elenco a discesa Azione indicare se si desidera eseguire alcuna pulizia sui dati prima di salvare il set di dati:

    • Nessuno: usare i dati come è.

    • SetMissingValue: impostare un valore specifico su un valore mancante nel set di dati. Il segnaposto predefinito è il carattere punto interrogativo (?), ma è possibile usare l'opzione Valore mancante personalizzato per immettere un valore diverso. Ad esempio, se si immette taxi per valore mancante personalizzato, tutte le istanze di Taxi nel set di dati verranno modificate nel valore mancante.

    • ReplaceValues: usare questa opzione per specificare un singolo valore esatto da sostituire con qualsiasi altro valore esatto. È possibile sostituire i valori mancanti o i valori personalizzati impostando il metodo Replace :

      • Mancante: scegliere questa opzione per sostituire i valori mancanti nel set di dati di input. Per Nuovo valore immettere il valore con cui sostituire i valori mancanti.
      • Personalizzato: scegliere questa opzione per sostituire i valori personalizzati nel set di dati di input. Per Valore personalizzato immettere il valore da trovare. Ad esempio, se i dati contengono la stringa obs utilizzata come segnaposto per i valori mancanti, immettere obs. Per Nuovo valore immettere il nuovo valore per sostituire la stringa originale con.

    Si noti che l'operazione ReplaceValues si applica solo alle corrispondenze esatte. Ad esempio, queste stringhe non saranno interessate: obs., obsolete.

  4. Inviare la pipeline.

Risultati

  • Per salvare il set di dati risultante con un nuovo nome, selezionare sull'icona Registra set di dati nella scheda Output nel pannello destro del componente.

Note tecniche

  • Qualsiasi componente che accetta un set di dati come input può anche accettare dati nel file CSV o nel file TSV. Prima di eseguire qualsiasi codice del componente, gli input vengono pre-elaborati. Il pre-elaborazione equivale all'esecuzione del componente Convert to Dataset nell'input.

  • Non è possibile convertire dal formato SVMLight a un set di dati.

  • Quando si specifica un'operazione di sostituzione personalizzata, l'operazione di ricerca e sostituzione si applica ai valori completi. Le corrispondenze parziali non sono consentite. Ad esempio, è possibile sostituire un 3 con -1 o con 33, ma non è possibile sostituire un 3 in un numero a due cifre, ad esempio 35.

  • Per le operazioni di sostituzione personalizzata, la sostituzione ha esito negativo in modo invisibile all'utente se si usa un carattere sostitutivo non conforme al tipo di dati corrente della colonna.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.