Udostępnij za pośrednictwem


Podsumowywanie danych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Generuje podstawowy raport statystyk opisowych dla kolumn w zestawie danych

Kategoria: Funkcje statystyczne

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Summarize Data (Podsumuj dane) w programie Machine Learning Studio (wersja klasyczna) w celu utworzenia zestawu standardowych miar statystycznych opisujących każdą kolumnę w tabeli wejściowej.

Takie statystyki podsumowujące są przydatne, gdy chcesz zrozumieć charakterystykę kompletnego zestawu danych. Na przykład może być konieczne:

  • Ile brakujących wartości znajduje się w każdej kolumnie?
  • Ile unikatowych wartości znajduje się w kolumnie funkcji?
  • Jaka jest średnia i odchylenie standardowe dla każdej kolumny?

Moduł oblicza ważne wyniki dla każdej kolumny i zwraca wiersz podsumowania statystyk dla każdej zmiennej (kolumny danych) podanej jako dane wejściowe.

Porada

Być może wiesz już, że możesz uzyskać krótką listę statystyk przy użyciu opcji Visualize (Wizualizacja) w programie Studio (wersja klasyczna). Jednak ta wizualizacja jest tworzona na podstawie dużej liczby wierszy. Z kolei moduł Summarize Data (Podsumuj dane) oblicza swoje statystyki dla wszystkich wierszy danych.

Jak używać podsumowania danych

  1. Dodaj moduł Summarize Data (Podsumuj dane) do eksperymentu. Ten moduł można znaleźć w kategorii Funkcje statystyczne w programie Studio (wersja klasyczna).

  2. Połączenie zestaw danych, dla którego chcesz wygenerować raport.

    Jeśli chcesz raportować tylko dla niektórych kolumn, użyj modułu Select Columns in Dataset (Wybieranie kolumn w zestawie danych), aby rzutować podzbiór kolumn do pracy.

  3. Nie są wymagane żadne dodatkowe parametry. Domyślnie moduł analizuje wszystkie kolumny, które są dostarczane jako dane wejściowe, i w zależności od typu wartości w kolumnach wyprowadza odpowiedni zestaw statystyk zgodnie z opisem w sekcji Wyniki.

  4. Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł, a następnie wybierz pozycję Uruchom wybraną.

Wyniki

Raport z modułu może zawierać następujące statystyki.

  • Dokładne statystyki, które są generowane, zależą od typu danych kolumny. Aby uzyskać szczegółowe informacje, zobacz sekcję Uwagi techniczne.

  • Zakłada się, że wystąpienia należą do reprezentatywnej próbki populacji. Jeśli chcesz obliczyć statystyki dotyczące populacji, użyj opcji dostępnych w module Obliczanie statystyk podstawowych, w którym można obliczyć statystyki próbki lub populacji.

Nazwa kolumny Opis
Funkcja Nazwa kolumny
Liczba Liczba wszystkich wierszy
Liczba unikatowych wartości Liczba unikatowych wartości w kolumnie
Liczba brakujących wartości Liczba unikatowych wartości w kolumnie
Min Najniższa wartość w kolumnie
Max Najwyższa wartość w kolumnie
Oznacza Średnia wszystkich wartości kolumn
Odchylenie średnie Średnie odchylenie wartości kolumn
1. Kwartyl Wartość przy pierwszym kwartylu
Mediana Mediana wartości kolumny
Trzeci kwartyl Wartość w trzecim kwartylu
Tryb Tryb wartości kolumn
Zakres Liczba całkowita reprezentująca liczbę wartości między wartościami maksymalnymi i minimalnymi
Przykładowa wariancja Wariancja dla kolumny; zobacz Uwaga
Przykładowe odchylenie standardowe Odchylenie standardowe dla kolumny; zobacz Uwaga
Nies skośność przykładu Nieschyć dla kolumny; zobacz Uwaga
Przykładowe dane Funkcja dla kolumny; zobacz Uwaga
P0.5 0,5% percentyla
P1 Percentyl 1%
P5 5% percentyl
P95 95% percentyl
P99.5 99,5% percentyla

Porada

Dane wyjściowe raportu statystycznego jako tabelarygo zestawu danych, dzięki czemu można użyć danych w narzędziach do raportowania analizy danych lub użyć wartości jako danych wejściowych dla innej operacji w eksperymencie.

Przykłady

Aby uzyskać przykłady użycia modułu Summarize Data (Podsumuj dane) w eksperymencie, zobacz Azure AI Gallery:

Uwagi techniczne

  • W przypadku kolumn liczbowych i logicznych można wyprowadzać średnią, medianę, tryb i odchylenie standardowe.

  • W przypadku kolumn nieliczbowych są obliczane tylko wartości z pól Liczba, Liczba unikatowych wartości i Liczba brakujących wartości. W przypadku innych statystyk zwracana jest wartość null.

  • Kolumny zawierające wartości logiczne są przetwarzane przy użyciu tych reguł:

    • Podczas obliczania wartości Minimalne jest stosowany logiczny operator AND.

    • Podczas obliczania wartości Maksymalnej jest stosowana wartość logiczna OR

    • Podczas obliczania zakresu moduł najpierw sprawdza, czy liczba unikatowych wartości w kolumnie jest równa 2.

    • Podczas obliczania statystyk, które wymagają obliczeń zmiennoprzecinków, wartości True są traktowane jako 1,0, a wartości False są traktowane jako 0,0.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Profil wejściowego zestawu danych, który zawiera statystyki opisowe

Wyjątki

Wyjątek Opis
Błąd 0003 Wyjątek występuje, jeśli co najmniej jedno wejście ma wartość null lub jest puste.
Błąd 0020 Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała.
Błąd 0021 Wyjątek występuje, gdy liczba wierszy w niektórych zestawach danych przekazanych do modułu jest zbyt mała.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Funkcje statystyczne
Obliczanie statystyk podstawowych