Condividi tramite


Riepilogare i dati

Questo articolo descrive un componente della finestra di progettazione di Azure Machine Learning.

Utilizzare il componente Riepilogo dati per creare un set di misure statistiche standard che descrivono ogni colonna della tabella di input.

Le statistiche di riepilogo sono utili per comprendere le caratteristiche del set di dati completo. Ad esempio, potrebbe essere necessario sapere:

  • Quanti valori mancanti sono presenti in ogni colonna?
  • Quanti valori univoci sono presenti in una colonna di funzionalità?
  • Qual è la media e la deviazione standard per ogni colonna?

Il componente calcola i punteggi importanti per ogni colonna e restituisce una riga di statistiche di riepilogo per ogni variabile (colonna di dati) fornita come input.

Come configurare Riepilogo dati

  1. Aggiungere il componente Summarize Data alla pipeline. È possibile trovare questo componente nella categoria Funzioni statistiche nella finestra di progettazione.

  2. Connettere il set di dati per il quale si vuole generare un report.

    Se si desidera creare report solo su alcune colonne, usare il componente Select Columns in Dataset per proiettare un subset di colonne da utilizzare.

  3. Non sono necessari parametri aggiuntivi. Per impostazione predefinita, il componente analizza tutte le colonne fornite come input e, a seconda del tipo di valori nelle colonne, restituisce un set rilevante di statistiche, come descritto nella sezione Risultati .

  4. Inviare la pipeline.

Risultati

Il report del componente può includere le statistiche seguenti.

Nome colonna Descrizione
Funzionalità Nome della colonna
Numero Count of all rows
Conteggio valori univoci Numero di valori univoci nella colonna
Conteggio valori mancanti Numero di valori univoci nella colonna
Min Valore minimo nella colonna
Max Valore più alto nella colonna
Media Media di tutti i valori di colonna
Deviazione media Deviazione media dei valori di colonna
1st Quartile Valore al primo quartile
Mediana Valore della colonna mediano
3rd Quartile Valore al terzo quartile
Modalità Modalità dei valori di colonna
Range Intero che rappresenta il numero di valori tra i valori massimi e minimi
Varianza di esempio Varianza per la colonna; vedere La nota
Deviazione standard di esempio Deviazione standard per la colonna; vedere La nota
Asimmetria di esempio Asimmetria per la colonna; vedere La nota
Kurtosi di esempio Kurtosi per colonna; vedere La nota
P0.5 0,5% percentile
P1 1% percentile
P5 5% percentile
P95 Percentile del 95%
P99.5 Percentile del 99,5%

Note tecniche

  • Per le colonne non numeriche, vengono calcolati solo i valori di Count, Unique value count e Missing value count. Per altre statistiche, viene restituito un valore Null.

  • Le colonne che contengono valori booleani vengono elaborate usando queste regole:

    • Per il calcolo di Min, viene applicato un AND logico.

    • Quando si calcola Max, viene applicato un OR logico

    • Quando si calcola Range, il componente controlla innanzitutto se il numero di valori univoci nella colonna è uguale a 2.

    • Per il calcolo di qualsiasi statistica che richieda calcoli a virgola mobile, i valori True vengono considerati come 1,0 e i valori False come 0,0.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.