Sdílet prostřednictvím


Základní statistiky COMPUTE

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vypočítá zadané souhrnné statistiky pro vybrané sloupce datové sady.

Kategorie: statistické funkce

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu compute compute compute v Machine Learning studiu (classic) vygenerovat souhrnnou sestavu pro datovou sadu, která uvádí klíčové statistiky, jako je střední hodnota, směrodatná odchylka a rozsah hodnot pro každý z vybraných sloupců.

Tato sestava je užitečná pro analýzu centrálního využití, rozptýlení a tvaru dat.

Jak nakonfigurovat základní statistiky výpočetních prostředků

  1. Přidejte do experimentu modul COMPUTE pro základní statistiky . tento modul můžete najít v kategorii statistické funkce v Machine Learning studiu (classic).

  2. Připojení datovou sadu, která obsahuje sloupce, které chcete analyzovat.

  3. Klikněte na rozevírací seznam Metoda a vyberte typ hodnoty, kterou chcete vypočítat pro každý sloupec.

    Úplný seznam dostupných statistik a jejich význam najdete v části podporované statistiky .

  4. Ve výchozím nastavení se hodnota, kterou jste vybrali v rozevíracím seznamu Metoda , vypočítá pro všechny sloupce v datové sadě, které mají číselný datový typ. Pokud má libovolný sloupec hodnoty, které brání výpočtu hodnoty, bude vyvolána chyba a sestava nebude vytvořena.

    Chcete-li se této chybě vyhnout, použijte selektor sloupců a vyberte číselné sloupce, pro které chcete vytvořit sestavu. Všechny sloupce, které vyberete, musí být číselné.

  5. Spusťte experiment.

Výsledky

Vygenerovaná sestava obsahuje název každého sloupce a statistiku, která byla vypočítána. V následující tabulce jsou například uvedeny statistiky vygenerované pro sloupec MPG .

DeviationSquared (mpg) Max (mpg) Min (mpg)
9674,312 25,21951 13

Tip

Pokaždé, když spustíte výpočetní základní statistiku, může generovat jenom jednu souhrnnou statistiku pro každý z vybraných sloupců. Můžete však použít moduly Přidat sloupce nebo Přidat řádky pro sloučení výsledků do jedné tabulky, jako v předchozím příkladu.

Podporované statistiky

Tento modul podporuje následující standardní popisné statistiky.

Odchylka na druhou

Vypočítá kvadratickou odchylku hodnot sloupce. Označuje se také jako součet čtverců.

Kvadratická odchylka je míra toho, jak daleko jsou hodnoty rozptýlené od středníku.

Geometrický průměr

Vypočítá geometrický průměr hodnot sloupců.

Geometrický průměr lze použít k měření střední hodnoty sady čísel. V porovnání s aritmetickým průměrem je méně ovlivněno malým počtem extrémních hodnot. Dá se použít i k porovnání měření v různých měřítkech, protože efektivně normalizuje škály porovnávaných čísel. Geometrické prostředky se někdy používají k odhadování složených ročních sazeb růstu.

ekvivalentní funkce v Excel je střední.

Harmonický průměr

Vypočítá harmonický průměr hodnot sloupců.

Pokud chcete vypočítat harmonický průměr, všechny hodnoty se převedou na jejich reciprocals a pak se střední hodnota převezme z těchto hodnot. Harmonickým významem je to, že to znamená. Pokud jsou hodnoty sloupce kladné, větší počet je vážený méně než menší čísla.

Harmonický průměr je vždy menší než geometrický průměr, který je vždy menší než aritmetický průměr. Harmonický průměr je vhodný pro výpočet průměru proměnných, které reprezentují sazby, jako je například rychlost (vzdálenost v průběhu času) nebo prodej za čtvrtletí.

ekvivalentní funkce v Excel je HARMEAN.

Interquartile vzdálenost

Vypočítá rozdíl interquartile pro první a poslední Kvartily hodnoty sloupce. Označuje se také jako Rozsah kvartil. Když kvartil přepadne mezi dvě čísla, kvartil hodnota je průměr dvou hodnot na obou stranách řezu.

Kvartil hodnota rozdělí sloupec hodnot na čtyři skupiny s větším počtem hodnot. Proto jedna čtvrtina hodnoty je menší nebo rovna 25 procentům. Tři čtvrtiny hodnoty jsou menší nebo rovny percentil percentilu. Kontrolou rozsahu kvartil můžete získat představu o tom, jak jsou hodnoty dat široce rozloženy.

K – střední moment

Vypočítá k hodnotám sloupců n -tou střední moment .

Při výpočtu K-tého středu je nutné zadat také pořadí, což znamená hodnotu K. Hodnota k má být v rozsahu od 0 do libovolné povolené celočíselné hodnoty, ačkoliv hodnoty vyšších objednávek obecně nejsou smysluplné.

Obecně platí, že v popisných statistikách je okamžik míra, která popisuje tvar sady bodů. Střední moment znamená moment, který se obvykle používá, protože poskytují lepší informace o obrazci distribuce. Odchylka má obvykle pořadí 2; pro špičatost se používá pořadí 4. První pořadí je střední hodnota. Kolekce všech momentů tedy jednoznačně popisuje distribuci hodnot ve sloupci.

Maximum

Najde maximální hodnotu ve sloupci.

Mean

Vypočítá aritmetický průměr hodnot sloupců.

ekvivalentní funkce v Excel je průměr.

Střední odchylka

Vypočítá střední absolutní odchylku pro hodnoty sloupce.

To znamená, že se pro sloupec vypočítá průměr a u každé hodnoty ve sloupci se vypočte odchylka. Průměr absolutních hodnot jednotlivých hodnot odchylky představuje střední odchylku.

Tato statistika vám ukáže, jak rozdělit z střední hodnoty je váš sloupec čísel.

Medián

Vrátí Medián hodnot sloupce.

Medián je číslo uprostřed sloupce čísel. Pokud sloupec obsahuje sudý počet čísel, medián je průměr dvou čísel uprostřed.

Medián, spolu s průměrem a režimem, je jedním ze tří statistik, které měří střední tendenci. Pokud jsou hodnoty symetricky kolem středníku, budou tři čísla přibližně stejné. Medián je však robustnější pro odlehlé hodnoty, než je střední hodnota.

Mediánová odchylka

Vypočítá střední odchylku sloupce.

To znamená, že medián se vypočítá pro sloupec a odchylka se vypočítala pro každou hodnotu ve sloupci. Je převzata mediánová hodnota absolutních hodnot hodnot jednotlivých odchylek.

Medián absolutní odchylky se také označuje jako MAD a používá se k popisu variability vzorku čísel. MAD vám řekne, jak se rozprostírá od střední hodnoty sloupce čísel.

Min

Vrátí minimální hodnotu hodnot sloupce.

Režim

Vyhledá všechny režimy sloupce.

Režim je hodnota, která se ve sloupci zobrazuje nejvíce. Pokud se několik hodnot zobrazí stejným počtem, může mít sloupec více režimů.

Jako měřítko centrální tendence je režim robustnější pro odlehlé hodnoty než průměr a lze ho použít i s nominálními daty.

Směrodatná odchylka základního souboru

Vypočítá směrodatnou odchylku základního souboru pro hodnoty sloupců.

Tato statistika předpokládá, že hodnoty sloupců představují základní soubor. Pokud jsou vaše data pouze výběrem základního souboru, musíte směrodatnou odchylku vypočítat pomocí vzorkovací směrodatné odchylky. Ve velkých datových sadách ale tyto dvě statistiky vrací přibližně stejné hodnoty.

Směrodatná odchylka se vypočítá jako odmocnina odchylky sloupce. Tato statistika zachycuje proměnlivost sloupce.

Odchylka základního souboru

Vypočítá odchylku základního souboru pro hodnoty sloupců.

Odchylka měří, kolik je sada čísel rozložena. Pokud je odchylka nula, jsou všechna čísla stejná.

Tato statistika předpokládá, že sloupec hodnot představuje základní soubor. Pokud vaše data obsahují pouze vzorek hodnot, měli byste odchylku vypočítat pomocí vzorkovací odchylky.

Ekvivalentní Excel funkce je VAR.P.

Produkt

Vypočítá součítek prvků sloupce.

Pokud chcete produkt získat, nasytáte všechna čísla ve sloupci. Výsledek sám o sobě není užitečný jako popisná statistika, ale funkce je užitečná pro celou řadu dalších výpočtů.

Rozsah

Vypočítá rozsah hodnot sloupce. Rozsah je definovaný jako maximální hodnota minus minimální hodnota.

Ukázka s daty

Vypočítá vzorový kód pro hodnoty sloupců.

Ve srovnání s normálním rozdělením popisujeme tvar rozdělení hodnot– to znamená, jak moc je rozdělení hodnot ve špičce nebo ploché.

  • Normální rozdělení má 0.

  • Vysoké hodnotové hodnoty ukazují, že pravděpodobnostní hmotnost je soustředěna buď kolem špičky, nebo na chvostu rozdělení.

  • Záporné hodnoty indikují poměrně ploché rozdělení.

Neschůdnost vzorku

Vypočítá neschůdnost vzorku pro hodnoty sloupců.

Zešikmení popisuje, jestli je většina hodnot uprostřed, posunutá doleva nebo posunutá doprava. Dvě rozdělení mohou mít stejnou střední a směrodatnou odchylku, ale mají velmi odlišné tvary. Tvar můžete charakterizovat pomocí neschůdnosti a šmouhlosti.

  • Záporné hodnoty zešikmení znamená, že rozdělení je zkosené doleva.

  • 0 označuje normální rozdělení.

  • Kladné hodnoty nesměrnosti znamenají, že rozdělení je zkosené doprava.

Vzorkovací směrodatná odchylka

Vypočítá směrodatnou odchylku vzorku pro hodnoty sloupců.

Směrodatná odchylka vzorku měří rozložení hodnot ve sloupci od střední hodnoty. Představuje průměrnou vzdálenost mezi hodnotami dat v sadě a střední hodnotou.

Tato statistika předpokládá, že hodnoty sloupců představují výběrový soubor. Pokud vaše data představují základní soubor, musíte vypočítat směrodatnou odchylku pomocí směrodatné odchylky population.

Ekvivalentní Excel je ST. DEV.S.

Odchylka vzorku

Vypočítá odchylku vzorku hodnot sloupců.

Tato metoda předpokládá, že hodnoty sloupců představují výběrový soubor. Pokud sloupec obsahuje základní soubor, měli byste použít standardní odchylku Population.

Ekvivalentní Excel je VAR.S.

Sum

Vypočítá součet hodnot sloupce.

Příklady

Následující experimenty v Azure AI Gallery ukazují , jak můžete vytvořit souhrnnou sestavu, která obsahuje popisné statistiky pro celou datovou sadu. Souhrnná sestava obsahuje pouze obecné statistiky. Můžete ji ale uložit jako datovou sadu a pak přidat podrobnější statistiky pomocí možností v části Výpočet základních statistik.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Tip

Při použití modulu základní statistiky výpočetních prostředků musí být splněny následující podmínky:

  • K výpočtu vybrané statistiky musí být dostatečný počet datových bodů (řádků). Například k výpočtu vzorové směrodatné odchylky se vyžadují alespoň dva datové body. V opačném případě je výsledkem NaN.
  • Vstupní sloupce musí být číselné nebo logické.

Ve výchozím nastavení jsou vybrány všechny číselné sloupce. Pokud jsou ale některé číselné sloupce označené jako kategorické, může se zobrazit následující chyba: Chyba 0056: Sloupec <> s názvem sloupce s názvem není v povolené kategorii. Pokud chcete chybu opravit, přidejte instanci modulu Upravit metadata, vyberte sloupec s problémem a použijte možnost Odebrat kategorii.

Podrobnosti o implementaci

Sloupce logických hodnot se zpracovávají takto:

  • Minimální hodnota se vypočítá jako logický operátor AND.

  • Max se vypočítá jako logický operátor OR.

  • RANGE zkontroluje, jestli se počet jedinečných hodnot ve sloupci rovná 2.

  • Chybějící hodnoty se ignorují.

  • Pro statistiky, které vyžadují výpočty s plovoucí desetinnou čárkou, true = 1,0 a false = 0,0

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Description
Metoda Seznam Metoda základní statistiky Vybere statistickou metodu, která se použije ve výpočtech. Seznam hodnot najdete v části Použití.
Sada sloupců Libovolný Výběr sloupce NumericAll Vybere sloupce, pro které se má vypočítat statistika.
Objednávka >=1 Integer 3 Určuje hodnotu pro pořadí centrálního okamžiku (používá se pouze pro kth central moment).

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Výstupní datová sada

Výjimky

Výjimka Description
Chyba 0017 K výjimce dochází v případě, že jeden nebo více zadaných sloupců má typ, který aktuální modul nepodporuje.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Statistické funkce
Základní
Sumarizace dat
Seznam modulů A až Z