Sammanfatta data

Artikel
06/01/2023

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd komponenten Summarize Data (Sammanfatta data) för att skapa en uppsättning statistiska standardmått som beskriver varje kolumn i indatatabellen.

Sammanfattningsstatistik är användbart när du vill förstå egenskaperna för den fullständiga datamängden. Du kan till exempel behöva veta:

Hur många saknade värden finns det i varje kolumn?
Hur många unika värden finns det i en funktionskolumn?
Vad är medelvärdet och standardavvikelsen för varje kolumn?

Komponenten beräknar viktiga poäng för varje kolumn och returnerar en rad sammanfattningsstatistik för varje variabel (datakolumn) som anges som indata.

Så här konfigurerar du sammanfatta data

Lägg till komponenten Summarize Data (Sammanfatta data ) i pipelinen. Du hittar den här komponenten i kategorin Statistiska funktioner i designern.
Anslut den datauppsättning som du vill generera en rapport för.

Om du bara vill rapportera om vissa kolumner använder du komponenten Välj kolumner i datauppsättning för att projicera en delmängd kolumner att arbeta med.
Inga ytterligare parametrar krävs. Som standard analyserar komponenten alla kolumner som tillhandahålls som indata, och beroende på typen av värden i kolumnerna matar ut en relevant uppsättning statistik enligt beskrivningen i avsnittet Resultat .
Skicka pipelinen.

Resultat

Rapporten från komponenten kan innehålla följande statistik.

Kolumnnamn	Description
Funktion	Namnet på kolumnen
Count	Antal rader
Antal unika värden	Antal unika värden i kolumnen
Antal saknade värden	Antal unika värden i kolumnen
Min	Lägsta värde i kolumnen
Max	Högsta värde i kolumnen
Menar	Medelvärde för alla kolumnvärden
Medelvärdesavvikelse	Genomsnittlig avvikelse för kolumnvärden
1:a kvartilen	Värde vid första kvartilen
Median	Mediankolumnvärde
Tredje kvartilen	Värde vid tredje kvartilen
Läge	Läge för kolumnvärden
Intervall	Heltal som representerar antalet värden mellan högsta och lägsta värden
Exempelavvikelse	Avvikelse för kolumn; se Obs!
Exempel på standardavvikelse	Standardavvikelse för kolumn; se Obs!
Exempel på skevhet	Spett för kolumn; se Obs!
Exempel på Kurtosis	Kurtosis för kolumn; se Obs!
P0.5	0,5 % percentil
P1	1 % percentil
P5	5 % percentil
P95	95 % percentil
P99.5	99,5 % percentil

Tekniska anteckningar

För icke-numeriska kolumner beräknas endast värdena för Antal, Unikt värde och Antal saknade värden. För annan statistik returneras ett null-värde.
Kolumner som innehåller booleska värden bearbetas med hjälp av följande regler:
- Vid beräkning av Min tillämpas en logisk AND.
- Vid beräkning av max tillämpas en logisk OR
- När databehandlingsintervallet beräknas kontrollerar komponenten först om antalet unika värden i kolumnen är lika med 2.
- När du beräknar all statistik som kräver flyttalsberäkningar behandlas värdena för True som 1,0 och värdena för False behandlas som 0,0.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.

Dela via