Obliczanie statystyk podstawowych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Oblicza określone statystyki podsumowujące dla wybranych kolumn zestawu danych

Kategoria: Funkcje statystyczne

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Compute Podstawowy statystyk w programie Machine Learning Studio (wersja klasyczna) w celu wygenerowania raportu podsumowania dla zestawu danych, który zawiera listę kluczowych statystyk, takich jak średnia, odchylenie standardowe i zakres wartości dla każdej wybranej kolumny.

Ten raport jest przydatny do analizowania centralnej tendencji, rozproszenia i kształtu danych.

Jak skonfigurować podstawowe statystyki obliczeń

  1. Dodaj moduł Compute Elementary Statistics (Obliczanie statystyk podstawowych) do eksperymentu. Ten moduł można znaleźć w kategorii Funkcje statystyczne w programie Machine Learning Studio (wersja klasyczna).

  2. Połączenie zestaw danych zawierający kolumny, które chcesz przeanalizować.

  3. Kliknij listę rozwijaną Metoda i wybierz typ wartości, którą chcesz obliczyć dla każdej kolumny.

    Zobacz sekcję Obsługiwane statystyki , aby uzyskać pełną listę dostępnych statystyk i ich znaczenie.

  4. Domyślnie wartość wybrana na liście rozwijanej Metoda będzie obliczana dla wszystkich kolumn w zestawie danych, które mają typ danych liczbowych. Jeśli dowolna kolumna zawiera wartości uniemożliwiające obliczenia wartości, zostanie zgłaszany błąd i raport nie zostanie utworzony.

    Aby uniknąć tego błędu, użyj selektora kolumn, aby wybrać kolumny liczbowe, dla których chcesz raport. Wszystkie kolumny, które wybierzesz, muszą być liczbowe.

  5. Uruchom eksperyment.

Wyniki

Wygenerowany raport zawiera nazwę każdej kolumny i obliczoną statystykę. Na przykład w poniższej tabeli przedstawiono statystyki wygenerowane dla kolumny mpg .

DeviationSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Porada

Za każdym razem, gdy uruchamiasz podstawowe statystyki obliczeniowe, może ona wygenerować tylko jedną statystykę podsumowującą dla każdej wybranej kolumny. Można jednak użyć modułów Dodaj kolumny lub Dodaj wiersze, aby scalić wyniki w jedną tabelę, jak w poprzednim przykładzie.

Obsługiwane statystyki

Ten moduł obsługuje następujące standardowe statystyki opisowe.

Odchylenie kwadratowe

Oblicza odchylenie kwadratowe wartości kolumn. Nazywane również sumą kwadratów.

Odchylenie kwadratowe to miara tego, jak daleko wartości są rozpraszane od średniej.

Średnia geometryczna

Oblicza średnią geometryczną wartości kolumn.

Średnia geometryczna może służyć do mierzenia centralnego trendu zestawu liczb. W porównaniu ze średnią arytmetyczną niewielka liczba skrajnych wartości ma na nie mniejszy wpływ. Można jej również używać do porównywania pomiarów w różnych skalach, ponieważ skutecznie normalizuje skale porównywanych liczb. Środki geometryczne są czasami używane do szacowania złożonych rocznych wskaźników wzrostu.

Równoważną funkcją w Excel jest GEOMEAN.

Średnia harmoniczna

Oblicza średnią czasową wartości kolumny.

Aby obliczyć średnią emisyjną, wszystkie wartości są konwertowane na ich odwrotności, a następnie średnia jest liczona z tych wartości. Średnia czasowa jest odwrotnością tej średniej. Jeśli wartości kolumn są dodatnie, większe liczby są ważone mniej niż mniejsze liczby.

Średnia geometryczna jest zawsze mniejsza niż średnia geometryczna, która jest zawsze mniejsza niż średnia arytmetyczna. Średnia czasowa jest przydatna do uśredniania zmiennych reprezentujących stawki, takich jak szybkość (odległość w czasie) lub sprzedaż na kwartał.

Równoważną funkcją w Excel jest HARMEAN.

Odległość międzykwartylowa

Oblicza różnicę międzykwartylową dla pierwszego i ostatniego kwartylu wartości kolumny. Nazywany również zakresem kwartylowym. Gdy kwartyl mieści się między dwiema liczbami, wartość kwartylu jest średnią z dwóch wartości po obu stronach wycinania.

Wartość kwartylowa dzieli kolumnę wartości na cztery grupy o równej liczbie wartości. W związku z tym jedna czwarta wartości jest mniejsza lub równa 25. percentylowi. Trzy czwarte wartości są mniejsze niż lub równe 75. percentylowi. Przeglądając kwartyl, można sprawdzić, jak bardzo rozrzucono wartości danych.

K-ty środkowy moment

Oblicza K-ty środkowy moment dla wartości kolumny.

Podczas obliczania K-tej centralnej chwili, należy również określić Order, co oznacza wartość k. Wartość k może być z zakresu od 0 do dowolnej dozwolonej wartości całkowitej, chociaż wartości w wyższej kolejności zazwyczaj nie mają znaczenia.

Ogólnie rzecz biorąc, w statystykach opisowych chwilę jest miarą opisującą kształt zestawu punktów. Centralne momenty to momenty dotyczące średniej, które są zwykle używane, ponieważ zapewniają lepsze informacje o kształcie rozkładu. Kolejność 2 zazwyczaj reprezentuje wariancji; Kolejność 4 jest używana na przykład w przypadku wartości 4. Moment pierwszej kolejności to średnia. W związku z tym kolekcja wszystkich momentów w unikatowy sposób opisuje rozkład wartości w kolumnie.

Maks.

Znajduje maksymalną wartość w kolumnie.

Średnia

Oblicza średnią arytmetyczną wartości kolumn.

Równoważną funkcją w Excel jest AVERAGE.

Odchylenie średnie

Oblicza średnie odchylenie bezwzględne dla wartości kolumny.

Oznacza to, że średnia jest obliczana dla kolumny, a odchylenie obliczane dla każdej wartości w kolumnie. Średnia wartości bezwzględnych wartości odchylenia indywidualnego jest średnią odchylenia.

Ta statystyka informuje o tym, jaka jest rozrzucenie od średniej w kolumnie liczb.

Mediana

Zwraca medianę wartości kolumny.

Mediana to liczba w środku kolumny liczb. Jeśli w kolumnie znajduje się równomierna liczba, mediana jest średnią z dwóch liczb w środku.

Mediana wraz ze średnią i trybem jest jedną z trzech statystyk, która mierzy tendencję centralną. Jeśli wartości są symetryczne wokół średniej, trzy liczby będą mniej więcej takie same. Jednak mediana jest bardziej niezawodna dla wartości odsłonych niż średnia.

Odchylenie mediany

Oblicza medianę odchylenia dla kolumny.

Oznacza to, że mediana jest obliczana dla kolumny, a odchylenie obliczane dla każdej wartości w kolumnie. Mediana wartości bezwzględnych wartości poszczególnych odchyleń jest ].

Mediana odchylenia bezwzględnego jest również znana jako MAD i jest używana do opisywania zmienności próbki liczb. Mad informuje o tym, jak rozłożyć na średnią kolumnę liczb.

Min

Zwraca minimalną wartość wartości kolumny.

Tryb

Znajduje wszystkie tryby dla kolumny.

Tryb to wartość, która pojawia się najczęściej w kolumnie. Jeśli kilka wartości pojawia się tyle samo razy, kolumna może mieć wiele trybów.

Jako miara tendencji centralnej tryb jest bardziej odporny na wartości odejmowe niż średnia i może być również używany z danymi nominalnymi.

Odchylenie standardowe populacji

Oblicza odchylenie standardowe populacji dla wartości kolumn.

Ta statystyka zakłada, że wartości kolumn reprezentują całą populację. Jeśli dane są tylko próbką populacji, należy obliczyć odchylenie standardowe przy użyciu odchylenia standardowego próbki. Jednak w dużych zestawach danych te dwie statystyki zwracają w przybliżeniu równe wartości.

Odchylenie standardowe jest obliczane jako kwadratowy element główny wariancji kolumny. Ta statystyka przechwytuje zmienność w kolumnie.

Wariancja populacji

Oblicza wariancja populacji dla wartości kolumn.

Wariancja mierzy rozkład zestawu liczb. Jeśli wariancja wynosi zero, wszystkie liczby są takie same.

Ta statystyka zakłada, że kolumna wartości reprezentuje całą populację. Jeśli dane zawierają tylko próbkę wartości, należy obliczyć wariancja przy użyciu przykładowej wariancji.

Równoważna Excel to VAR.P.

Produkt

Oblicza i produkt elementów kolumny.

Aby uzyskać produkt, należy zwielokrotnieć wszystkie liczby w kolumnie. Wynik sam w sobie nie jest przydatny jako statystyka opisowa, ale funkcja jest przydatna do różnych innych obliczeń.

Zakres

Oblicza zakres wartości kolumn. Zakres jest definiowany jako wartość maksymalna minus wartość minimalna

Przykładowe próbki

Oblicza próbkę kolumny jako wartość.

Opis kształtu rozkładu wartości , czyli tego, jak szczytowa lub płaska jest rozkład wartości w porównaniu z rozkładem normalnym.

  • Rozkład normalny ma wartość 0.

  • Wysokie wartości szczytowe wskazują, że masę prawdopodobieństwa koncentruje się wokół wartości szczytowej lub na końcu rozkładu.

  • Ujemne wartości dodatnie wskazują względnie płaską rozkład.

Niescytość przykładu

Oblicza nieschybność próbki dla wartości kolumny.

Niesyć opisuje, czy większość wartości znajduje się w środku, przesunięte w lewo, czy przesunięte w prawo. Dwa rozkłady mogą mieć tę samą średnią i odchylenie standardowe, ale są ukształtowane bardzo inaczej. Aby określić kształt, można użyć niesyscynności i kształtu.

  • Ujemne wartości niesyskusji oznaczają, że rozkład jest skośny w lewo.

  • Wartość 0 oznacza rozkład normalny.

  • Dodatnie wartości niesyskusji oznaczają, że rozkład jest skośny w prawo.

Odchylenie standardowe próbki

Oblicza odchylenie standardowe próbki dla wartości kolumny.

Odchylenie standardowe próbki mierzy sposób rozkładu wartości w kolumnie od średniej. Reprezentuje średnią odległość między wartościami danych w zestawie a średnią.

Ta statystyka zakłada, że wartości kolumn reprezentują próbkę populacji. Jeśli dane reprezentują całą populację, należy obliczyć odchylenie standardowe przy użyciu odchylenia standardowego Populacja.

Równoważna Excel to ST. DEV.S.

Wariancja próbki

Oblicza wariancja próbki dla wartości kolumny.

Ta metoda zakłada, że wartości kolumn reprezentują próbkę populacji. Jeśli kolumna zawiera całą populację, należy użyć standardowej wariancji populacji.

Równoważna Excel to VAR.S.

Sum

Oblicza sumę wartości kolumn.

Przykłady

Poniższe eksperymenty w Azure AI Gallery pokazują, jak można utworzyć raport podsumowujący zawierający opisowe statystyki dla całego zestawu danych. Raport podsumowujący zawiera tylko ogólne statystyki. Można jednak zapisać go jako zestaw danych, a następnie dodać bardziej szczegółowe statystyki, korzystając z opcji dostępnych w sekcji Obliczanie statystyk podstawowych.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Porada

W przypadku korzystania z modułu Compute Elementary Statistics muszą zostać spełnione następujące warunki:

  • Musi być wystarczająca liczba punktów danych (wierszy), aby można było obliczyć wybraną statystykę. Na przykład obliczenie odchylenia standardowego próbki wymaga co najmniej dwóch punktów danych; W przeciwnym razie wynikiem jest NaN.
  • Kolumny wejściowe muszą być liczbowe lub logiczne.

Domyślnie zaznaczone są wszystkie kolumny liczbowe. Jeśli jednak jakiekolwiek kolumny liczbowe są oznaczone jako podzielone na kategorie, może wystąpić następujący błąd: "Błąd 0056: <> Kolumna o nazwie nazwa kolumny nie należy do dozwolonej kategorii". Aby naprawić błąd, dodaj wystąpienie modułu Edit Metadata (Edytowanie metadanych), wybierz kolumnę z problemem i użyj opcji Remove categorical (Usuń podzielone na kategorii).

Szczegóły implementacji

Kolumny logiczne są przetwarzane w następujący sposób:

  • Wartość MIN jest obliczana jako logiczna AND.

  • Wartość MAX jest obliczana jako wartość logiczna OR.

  • Zakres sprawdza, czy liczba unikatowych wartości w kolumnie jest równa 2.

  • Brakujące wartości są ignorowane.

  • W przypadku statystyk, które wymagają obliczeń zmiennoprzecinków, wartość True = 1.0 i fałsz = 0,0

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Metoda Lista Metoda statystyk podstawowych Wybiera metodę statystyczną do użycia w obliczeniach. Listę wartości można znaleźć w sekcji Jak używać.
Zestaw kolumn dowolny ColumnSelection NumericAll Wybiera kolumny, dla których ma być obliczana statystyka
Zamówienie >= 1 Liczba całkowita 3 Określa wartość kolejności środkowych momentów (używana tylko dla kth central moment)

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyjściowy zestaw danych

Wyjątki

Wyjątek Opis
Błąd 0017 Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Funkcje statystyczne
Podstawowa
Podsumowywanie danych
Lista modułów A–Z