Sumarizace dat
Tento článek popisuje komponentu návrháře služby Azure Machine Learning.
Pomocí komponenty Sumarizovat data vytvořte sadu standardních statistických měr, které popisují jednotlivé sloupce ve vstupní tabulce.
Souhrnná statistika je užitečná, když chcete porozumět charakteristikám celé datové sady. Možná budete potřebovat vědět například:
- Kolik chybějících hodnot je v jednotlivých sloupcích?
- Kolik jedinečných hodnot je ve sloupci funkce?
- Jaká je střední a směrodatná odchylka jednotlivých sloupců?
Komponenta vypočítá důležitá skóre pro každý sloupec a vrátí řádek souhrnné statistiky pro každou proměnnou (datový sloupec) zadanou jako vstup.
Postup konfigurace souhrnu dat
Přidejte do kanálu komponentu Sumarizovat data . Tuto komponentu najdete v návrháři v kategorii Statistické funkce .
Připojte datovou sadu, pro kterou chcete vygenerovat sestavu.
Pokud chcete sestavovat jenom některé sloupce, použijte komponentu Vybrat sloupce v datové sadě a promítejte podmnožinu sloupců, se kterými chcete pracovat.
Nejsou vyžadovány žádné další parametry. Ve výchozím nastavení komponenta analyzuje všechny sloupce, které jsou zadané jako vstup, a v závislosti na typu hodnot ve sloupcích vypíše relevantní sadu statistik, jak je popsáno v části Výsledky .
Odešlete kanál.
Výsledky
Sestava z komponenty může obsahovat následující statistiky.
Název sloupce | Popis |
---|---|
Funkce | Název sloupce |
Count | Počet všech řádků |
Počet jedinečných hodnot | Počet jedinečných hodnot ve sloupci |
Chybějící počet hodnot | Počet jedinečných hodnot ve sloupci |
Min | Nejnižší hodnota ve sloupci |
Max | Nejvyšší hodnota ve sloupci |
Znamená | Průměr všech hodnot sloupců |
Střední odchylka | Střední odchylka hodnot sloupců |
1. kvartil | Hodnota při prvním kvartilu |
Medián | Medián hodnoty sloupce |
3. kvartil | Hodnota třetího kvartilu |
Režim | Režim hodnot sloupců |
Rozsah | Celé číslo představující počet hodnot mezi maximální a minimální hodnotou |
Ukázka rozptylu | Odchylka pro sloupec; viz poznámka. |
Vzorová směrodatná odchylka | Směrodatná odchylka sloupce; viz poznámka. |
Ukázková šikmost | Šikmost sloupce; viz poznámka. |
Ukázková kurtóza | Kurtóza pro sloupec; viz poznámka. |
P0,5 | 0,5% percentil |
P1 | 1% percentil |
P5 | 5% percentil |
P95 | 95% percentil |
P99,5 | 99,5% percentil |
Technické poznámky
U nečíselných sloupců se počítají jenom hodnoty pro Počet, Počet jedinečných hodnot a Počet chybějících hodnot. Pro ostatní statistiky je vrácena hodnota null.
Sloupce obsahující logické hodnoty se zpracovávají pomocí těchto pravidel:
Při výpočtu min se použije logický operátor AND.
Při výpočtu hodnoty Max se použije logický operátor OR.
Při výpočtu rozsahu komponenta nejprve zkontroluje, jestli se počet jedinečných hodnot ve sloupci rovná 2.
Při výpočtu jakékoli statistiky, která vyžaduje výpočty s plovoucí desetinou čárkou, se hodnoty True považují za 1,0 a hodnoty False za 0,0.
Další kroky
Projděte si sadu komponent dostupných pro Azure Machine Learning.