Summarize Data (Riepiloga dati)
Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.
Utilizzare il componente Riepilogo dati per creare un set di misure statistiche standard che descrivono ogni colonna nella tabella di input.
Le statistiche di riepilogo sono utili quando si vogliono comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario conoscere:
- Quanti valori mancanti sono presenti in ogni colonna?
- Quanti valori univoci sono presenti in una colonna di funzionalità?
- Qual è la deviazione media e standard per ogni colonna?
Il componente calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.
Come configurare Riepiloga dati
Aggiungere il componente Summarize Data (Riepiloga dati ) alla pipeline. È possibile trovare questo componente nella categoria Funzioni statistiche nella finestra di progettazione.
Connettere il set di dati per il quale si vuole generare un report.
Se si desidera creare report solo su alcune colonne, utilizzare il componente Select Columns in Dataset per proiettare un subset di colonne da utilizzare.
Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il componente analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set pertinente di statistiche come descritto nella sezione Risultati .
Inviare la pipeline.
Risultati
Il report del componente può includere le statistiche seguenti.
Nome colonna | Descrizione |
---|---|
Funzionalità | Nome della colonna |
Conteggio | Conteggio di tutte le righe |
Conteggio valori univoci | Numero di valori univoci nella colonna |
Conteggio valori mancanti | Numero di valori univoci nella colonna |
Min | Valore minimo nella colonna |
Max | Valore massimo nella colonna |
Media | Media di tutti i valori di colonna |
Deviazione media | Deviazione media dei valori di colonna |
1° Quartile | Valore al primo quartile |
Median | Valore della colonna mediano |
Terzo quartile | Valore al terzo quartile |
Modalità | Modalità dei valori di colonna |
Intervallo | Intero che rappresenta il numero di valori compresi tra i valori massimi e minimi |
Varianza di esempio | Varianza per la colonna; vedere La nota |
Deviazione standard di esempio | Deviazione standard per la colonna; vedere La nota |
Asimmetria di esempio | Asimmetria per la colonna; vedere La nota |
Kurtosi di esempio | Kurtosi per colonna; vedere La nota |
P0.5 | Percentile 0,5% |
P1 | 1% percentile |
P5 | Percentile del 5% |
P95 | Percentile del 95% |
P99.5 | Percentile del 99,5% |
Note tecniche
Per le colonne non numeriche vengono calcolati solo i valori per Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.
Le colonne che contengono valori booleani vengono elaborate usando queste regole:
Quando si calcola Min, viene applicato un and logico.
Quando si calcola Max, viene applicato un OR logico
Quando si calcola Intervallo, il componente controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.
Quando si calcola una statistica che richiede calcoli a virgola mobile, i valori true vengono considerati come 1,0 e i valori di False vengono considerati come 0,0.
Passaggi successivi
Vedere il set di componenti disponibili per Azure Machine Learning.