Dela via


Sammanfatta data

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd komponenten Summarize Data (Sammanfatta data) för att skapa en uppsättning statistiska standardmått som beskriver varje kolumn i indatatabellen.

Sammanfattningsstatistik är användbart när du vill förstå egenskaperna för den fullständiga datamängden. Du kan till exempel behöva veta:

  • Hur många saknade värden finns det i varje kolumn?
  • Hur många unika värden finns det i en funktionskolumn?
  • Vad är medelvärdet och standardavvikelsen för varje kolumn?

Komponenten beräknar viktiga poäng för varje kolumn och returnerar en rad sammanfattningsstatistik för varje variabel (datakolumn) som anges som indata.

Så här konfigurerar du sammanfatta data

  1. Lägg till komponenten Summarize Data (Sammanfatta data ) i pipelinen. Du hittar den här komponenten i kategorin Statistiska funktioner i designern.

  2. Anslut den datauppsättning som du vill generera en rapport för.

    Om du bara vill rapportera om vissa kolumner använder du komponenten Välj kolumner i datauppsättning för att projicera en delmängd kolumner att arbeta med.

  3. Inga ytterligare parametrar krävs. Som standard analyserar komponenten alla kolumner som tillhandahålls som indata, och beroende på typen av värden i kolumnerna matar ut en relevant uppsättning statistik enligt beskrivningen i avsnittet Resultat .

  4. Skicka pipelinen.

Resultat

Rapporten från komponenten kan innehålla följande statistik.

Kolumnnamn Description
Funktion Namnet på kolumnen
Count Antal rader
Antal unika värden Antal unika värden i kolumnen
Antal saknade värden Antal unika värden i kolumnen
Min Lägsta värde i kolumnen
Max Högsta värde i kolumnen
Menar Medelvärde för alla kolumnvärden
Medelvärdesavvikelse Genomsnittlig avvikelse för kolumnvärden
1:a kvartilen Värde vid första kvartilen
Median Mediankolumnvärde
Tredje kvartilen Värde vid tredje kvartilen
Läge Läge för kolumnvärden
Intervall Heltal som representerar antalet värden mellan högsta och lägsta värden
Exempelavvikelse Avvikelse för kolumn; se Obs!
Exempel på standardavvikelse Standardavvikelse för kolumn; se Obs!
Exempel på skevhet Spett för kolumn; se Obs!
Exempel på Kurtosis Kurtosis för kolumn; se Obs!
P0.5 0,5 % percentil
P1 1 % percentil
P5 5 % percentil
P95 95 % percentil
P99.5 99,5 % percentil

Tekniska anteckningar

  • För icke-numeriska kolumner beräknas endast värdena för Antal, Unikt värde och Antal saknade värden. För annan statistik returneras ett null-värde.

  • Kolumner som innehåller booleska värden bearbetas med hjälp av följande regler:

    • Vid beräkning av Min tillämpas en logisk AND.

    • Vid beräkning av max tillämpas en logisk OR

    • När databehandlingsintervallet beräknas kontrollerar komponenten först om antalet unika värden i kolumnen är lika med 2.

    • När du beräknar all statistik som kräver flyttalsberäkningar behandlas värdena för True som 1,0 och värdena för False behandlas som 0,0.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.