Riepilogare i dati
Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.
Utilizzare il componente Riepilogo dati per creare un set di misure statistiche standard che descrivono ogni colonna della tabella di input.
Le statistiche di riepilogo sono utili per comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario sapere:
- Quanti valori mancanti sono presenti in ogni colonna?
- Quanti valori univoci sono presenti in una colonna di funzionalità?
- Qual è la media e la deviazione standard per ogni colonna?
Il componente calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.
Come configurare Riepilogo dati
Aggiungere il componente Summarize Data alla pipeline. È possibile trovare questo componente nella categoria Funzioni statistiche nella finestra di progettazione.
Connettere il set di dati per il quale si vuole generare un report.
Se si desidera creare report solo su alcune colonne, usare il componente Select Columns in Dataset per proiettare un subset di colonne da utilizzare.
Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il componente analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set rilevante di statistiche, come descritto nella sezione Risultati .
Inviare la pipeline.
Risultati
Il report del componente può includere le statistiche seguenti.
Nome colonna | Descrizione |
---|---|
Funzionalità | Nome della colonna |
Numero | Count of all rows |
Conteggio valori univoci | Numero di valori univoci nella colonna |
Conteggio valori mancanti | Numero di valori univoci nella colonna |
Min | Valore minimo nella colonna |
Max | Valore più alto nella colonna |
Media | Media di tutti i valori di colonna |
Deviazione media | Deviazione media dei valori di colonna |
1st Quartile | Valore al primo quartile |
Mediana | Valore della colonna mediano |
3rd Quartile | Valore al terzo quartile |
Modalità | Modalità dei valori di colonna |
Range | Intero che rappresenta il numero di valori tra i valori massimi e minimi |
Varianza di esempio | Varianza per la colonna; vedere La nota |
Deviazione standard di esempio | Deviazione standard per la colonna; vedere La nota |
Asimmetria di esempio | Asimmetria per la colonna; vedere La nota |
Kurtosi di esempio | Kurtosi per colonna; vedere La nota |
P0.5 | 0,5% percentile |
P1 | 1% percentile |
P5 | 5% percentile |
P95 | Percentile del 95% |
P99.5 | Percentile del 99,5% |
Note tecniche
Per le colonne non numeriche, vengono calcolati solo i valori di Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.
Le colonne che contengono valori booleani vengono elaborate usando queste regole:
Per il calcolo di Min, viene applicato un AND logico.
Quando si calcola Max, viene applicato un OR logico
Quando si calcola Range, il componente controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.
Per il calcolo di qualsiasi statistica che richieda calcoli a virgola mobile, i valori True vengono considerati come 1,0 e i valori False come 0,0.
Passaggi successivi
Vedere il set di componenti disponibili per Azure Machine Learning.