Sumarizace dat

Tento článek popisuje komponentu návrháře služby Azure Machine Learning.

Pomocí komponenty Sumarizovat data vytvořte sadu standardních statistických měr, které popisují jednotlivé sloupce ve vstupní tabulce.

Souhrnná statistika je užitečná, když chcete porozumět charakteristikám celé datové sady. Možná budete potřebovat vědět například:

  • Kolik chybějících hodnot je v jednotlivých sloupcích?
  • Kolik jedinečných hodnot je ve sloupci funkce?
  • Jaká je střední a směrodatná odchylka jednotlivých sloupců?

Komponenta vypočítá důležitá skóre pro každý sloupec a vrátí řádek souhrnné statistiky pro každou proměnnou (datový sloupec) zadanou jako vstup.

Postup konfigurace souhrnu dat

  1. Přidejte do kanálu komponentu Sumarizovat data . Tuto komponentu najdete v návrháři v kategorii Statistické funkce .

  2. Připojte datovou sadu, pro kterou chcete vygenerovat sestavu.

    Pokud chcete sestavovat jenom některé sloupce, použijte komponentu Vybrat sloupce v datové sadě a promítejte podmnožinu sloupců, se kterými chcete pracovat.

  3. Nejsou vyžadovány žádné další parametry. Ve výchozím nastavení komponenta analyzuje všechny sloupce, které jsou zadané jako vstup, a v závislosti na typu hodnot ve sloupcích vypíše relevantní sadu statistik, jak je popsáno v části Výsledky .

  4. Odešlete kanál.

Výsledky

Sestava z komponenty může obsahovat následující statistiky.

Název sloupce Popis
Funkce Název sloupce
Count Počet všech řádků
Počet jedinečných hodnot Počet jedinečných hodnot ve sloupci
Chybějící počet hodnot Počet jedinečných hodnot ve sloupci
Min Nejnižší hodnota ve sloupci
Max Nejvyšší hodnota ve sloupci
Znamená Průměr všech hodnot sloupců
Střední odchylka Střední odchylka hodnot sloupců
1. kvartil Hodnota při prvním kvartilu
Medián Medián hodnoty sloupce
3. kvartil Hodnota třetího kvartilu
Režim Režim hodnot sloupců
Rozsah Celé číslo představující počet hodnot mezi maximální a minimální hodnotou
Ukázka rozptylu Odchylka pro sloupec; viz poznámka.
Vzorová směrodatná odchylka Směrodatná odchylka sloupce; viz poznámka.
Ukázková šikmost Šikmost sloupce; viz poznámka.
Ukázková kurtóza Kurtóza pro sloupec; viz poznámka.
P0,5 0,5% percentil
P1 1% percentil
P5 5% percentil
P95 95% percentil
P99,5 99,5% percentil

Technické poznámky

  • U nečíselných sloupců se počítají jenom hodnoty pro Počet, Počet jedinečných hodnot a Počet chybějících hodnot. Pro ostatní statistiky je vrácena hodnota null.

  • Sloupce obsahující logické hodnoty se zpracovávají pomocí těchto pravidel:

    • Při výpočtu min se použije logický operátor AND.

    • Při výpočtu hodnoty Max se použije logický operátor OR.

    • Při výpočtu rozsahu komponenta nejprve zkontroluje, jestli se počet jedinečných hodnot ve sloupci rovná 2.

    • Při výpočtu jakékoli statistiky, která vyžaduje výpočty s plovoucí desetinou čárkou, se hodnoty True považují za 1,0 a hodnoty False za 0,0.

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.