Condividi tramite


Componente Dati mancante pulito

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare questo componente per rimuovere, sostituire o dedurre valori mancanti.

I data scientist controllano spesso i dati per i valori mancanti e quindi eseguono varie operazioni per correggere i dati o inserire nuovi valori. L'obiettivo di tali operazioni di pulizia è prevenire problemi causati da dati mancanti che possono verificarsi quando si esegue il training di un modello.

Questo componente supporta più tipi di operazioni per i valori mancanti di "pulizia", tra cui:

  • Sostituzione di valori mancanti con un segnaposto, una media o un altro valore
  • Rimozione completa di righe e colonne con valori mancanti
  • Inferenza di valori basati su metodi statistici

L'uso di questo componente non modifica il set di dati di origine. Crea invece un nuovo set di dati nell'area di lavoro che è possibile usare nel flusso di lavoro successivo. È anche possibile salvare il nuovo set di dati pulito per il riutilizzo.

Questo componente restituisce anche una definizione della trasformazione usata per pulire i valori mancanti. È possibile riutilizzare questa trasformazione in altri set di dati con lo stesso schema usando il componente Applica trasformazione .

Come usare i dati mancanti puliti

Questo componente consente di definire un'operazione di pulizia. È anche possibile salvare l'operazione di pulizia in modo che sia possibile applicarla in un secondo momento ai nuovi dati. Vedere le sezioni seguenti di come creare e salvare un processo di pulizia:

Importante

Il metodo di pulizia usato per la gestione dei valori mancanti può influire notevolmente sui risultati. È consigliabile sperimentare metodi diversi. Prendere in considerazione sia la giustificazione per l'uso di un metodo specifico che la qualità dei risultati.

Sostituire valori mancanti

Ogni volta che si applica il componente Clean Missing Data a un set di dati, viene applicata la stessa operazione di pulizia a tutte le colonne selezionate. Pertanto, se è necessario pulire colonne diverse usando metodi diversi, usare istanze separate del componente.

  1. Aggiungere il componente Clean Missing Data alla pipeline e connettere il set di dati mancante.

  2. Per pulire le colonne, scegliere le colonne che contengono i valori mancanti da modificare. È possibile scegliere più colonne, ma è necessario usare lo stesso metodo di sostituzione in tutte le colonne selezionate. Pertanto, in genere è necessario pulire le colonne stringa e le colonne numeriche separatamente.

    Ad esempio, per verificare la presenza di valori mancanti in tutte le colonne numeriche:

    1. Selezionare il componente Clean Missing Data (Pulisci dati mancanti ) e fare clic su Modifica colonna nel pannello destro del componente.

    2. Per Includi selezionare Tipi di colonna nell'elenco a discesa e quindi numerica.

    Qualsiasi metodo di pulizia o sostituzione scelto deve essere applicabile a tutte le colonne nella selezione. Se i dati in qualsiasi colonna non sono compatibili con l'operazione specificata, il componente restituisce un errore e arresta la pipeline.

  3. Per Rapporto valore mancante minimo, specificare il numero minimo di valori mancanti necessari per l'esecuzione dell'operazione.

    Questa opzione viene usata in combinazione con il rapporto valore massimo mancante per definire le condizioni in cui viene eseguita un'operazione di pulizia nel set di dati. Se sono presenti troppi o troppi valori mancanti, l'operazione non può essere eseguita.

    Il numero immesso rappresenta il rapporto dei valori mancanti a tutti i valori della colonna. Per impostazione predefinita, la proprietà Rapporto valore mancante minimo è impostata su 0. Ciò significa che i valori mancanti vengono puliti anche se è presente un solo valore mancante.

    Avviso

    Questa condizione deve essere soddisfatta da ogni colonna per applicare l'operazione specificata. Si supponga, ad esempio, di selezionare tre colonne e quindi impostare il rapporto minimo dei valori mancanti su .2 (20%), ma solo una colonna ha effettivamente il 20% dei valori mancanti. In questo caso, l'operazione di pulizia si applica solo alla colonna con più del 20% dei valori mancanti. Pertanto, le altre colonne sarebbero invariate.

    In caso di dubbi sulla modifica o meno dei valori mancanti, selezionare l'opzione Generate missing value indicator column. Una colonna viene aggiunta al set di dati per indicare se ogni colonna soddisfa i criteri specificati per gli intervalli minimi e massimi.

  4. Per Rapporto valore mancante massimo, specificare il numero massimo di valori mancanti che possono essere presenti per l'esecuzione dell'operazione.

    Ad esempio, è possibile eseguire la sostituzione del valore mancante solo se il 30% o meno delle righe contengono valori mancanti, ma lasciare i valori come è se più del 30% delle righe mancano valori.

    È possibile definire il numero come rapporto tra i valori mancanti e tutti i valori della colonna. Per impostazione predefinita, il rapporto valore mancante massimo è impostato su 1. Ciò significa che i valori mancanti vengono puliti anche se mancano il 100% dei valori della colonna.

  5. Per Modalità di pulizia selezionare una delle opzioni seguenti per sostituire o rimuovere valori mancanti:

    • Valore di sostituzione personalizzato: usare questa opzione per specificare un valore segnaposto (ad esempio 0 o NA) che si applica a tutti i valori mancanti. Il valore specificato come sostituzione deve essere compatibile con il tipo di dati della colonna.

    • Sostituire con la media: calcola la media della colonna e usa la media come valore sostitutivo per ogni valore mancante nella colonna.

      Si applica solo alle colonne con tipi di dati Integer, Double o Boolean.

    • Sostituire con mediano: calcola il valore mediano della colonna e usa il valore mediano come sostituzione di qualsiasi valore mancante nella colonna.

      Si applica solo alle colonne con tipi di dati Integer o Double.

    • Sostituire con la modalità: calcola la modalità per la colonna e usa la modalità come valore sostitutivo per ogni valore mancante nella colonna.

      Si applica alle colonne con tipi di dati Integer, Double, Boolean o Categorical.

    • Rimuovere l'intera riga: rimuove completamente qualsiasi riga nel set di dati con uno o più valori mancanti. Ciò è utile se il valore mancante può essere considerato mancante in modo casuale.

    • Rimuovere l'intera colonna: rimuove completamente qualsiasi colonna nel set di dati con uno o più valori mancanti.

  6. L'opzione Sostituzione valore è disponibile se è stata selezionata l'opzione, valore di sostituzione personalizzato. Digitare un nuovo valore da usare come valore sostitutivo per tutti i valori mancanti nella colonna.

    Si noti che è possibile usare questa opzione solo nelle colonne con Integer, Double, Boolean o String.

  7. Generare una colonna indicatore di valore mancante: selezionare questa opzione se si desidera restituire un'indicazione di se i valori nella colonna soddisfano i criteri per la pulizia del valore mancante. Questa opzione è particolarmente utile quando si configura una nuova operazione di pulizia e si vuole assicurarsi che funzioni come progettato.

  8. Inviare la pipeline.

Risultati

Il componente restituisce due output:

  • Set di dati pulito: set di dati costituito dalle colonne selezionate, con valori mancanti gestiti come specificato, insieme a una colonna indicatore, se è stata selezionata tale opzione.

    Le colonne non selezionate per la pulizia sono anche "passate".

  • Trasformazione pulizia: trasformazione dei dati usata per la pulizia, che può essere salvata nell'area di lavoro e applicata ai nuovi dati in un secondo momento.

Applicare un'operazione di pulizia salvata ai nuovi dati

Se è necessario ripetere spesso le operazioni di pulizia, è consigliabile salvare la ricetta per la pulizia dei dati come trasformazione, per riutilizzare con lo stesso set di dati. Il salvataggio di una trasformazione di pulizia è particolarmente utile se è necessario eseguire di nuovo l'importazione e quindi pulire i dati con lo stesso schema.

  1. Aggiungere il componente Applica trasformazione alla pipeline.

  2. Aggiungere il set di dati da pulire e connettere il set di dati alla porta di input a destra.

  3. Espandere il gruppo Trasforma nel riquadro sinistro della finestra di progettazione. Individuare la trasformazione salvata e trascinarla nella pipeline.

  4. Connettere la trasformazione salvata alla porta di input sinistra di Applica trasformazione.

    Quando si applica una trasformazione salvata, non è possibile selezionare le colonne a cui viene applicata la trasformazione. Ciò è dovuto al fatto che la trasformazione è già stata definita e si applica automaticamente alle colonne specificate nell'operazione originale.

    Si supponga tuttavia di creare una trasformazione in un subset di colonne numeriche. È possibile applicare questa trasformazione a un set di dati di tipi di colonne miste senza generare un errore, perché i valori mancanti vengono modificati solo nelle colonne numeriche corrispondenti.

  5. Inviare la pipeline.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.