Profilowanie danych w usłudze Power BI

Ukończone

Profilowanie danych polega na badaniu szczegółów danych: określaniu anomalii, sprawdzaniu i opracowywaniu podstawowych struktur danych oraz tworzeniu zapytań dotyczących statystyk danych, takich jak liczba wierszy, rozkład wartości, wartości minimalne i maksymalne, wartości średnie i tak dalej. To pojęcie jest ważne, ponieważ umożliwia kształtowanie i organizowanie danych w sposób ułatwiający korzystanie z nich i określanie ich rozkładu, a tym samym umożliwiający niemal bezproblemową pracę z danymi na poziomie frontonu w celu opracowania elementów raportów.

Załóżmy, że opracowujesz raport dla zespołu ds. sprzedaży w swojej organizacji.  Nie masz pewności, w jaki sposób dane są ustrukturyzowane i umieszczone w tabelach, więc chcesz profilować dane w tle przed rozpoczęciem tworzenia wizualizacji.  Usługa Power BI ma wbudowane funkcje, która sprawiają, że te zadania są nieskomplikowane i nie stanowią trudności dla użytkownika.

Sprawdzanie struktur danych

Przed rozpoczęciem badania danych w edytorze Power Query należy najpierw zapoznać się z informacjami na temat podstawowych struktur, w jakich zorganizowane są dane. Bieżący model semantyczny można wyświetlić na karcie Model na Power BI Desktop.

przykładowa struktura danych i pasek wstążki

Na karcie Model możesz edytować określone właściwości kolumn i tabeli, wybierając tabelę lub kolumny, a dane można przekształcić za pomocą przycisku Przekształć dane, co spowoduje przejście do Edytor Power Query. Ponadto można zarządzać, tworzyć, edytować i usuwać relacje między różnymi tabelami przy użyciu Zarządzanie relacjami, który znajduje się na wstążce.

Znajdowanie anomalii i statystyk danych

Po utworzeniu połączenia ze źródłem danych i wybraniu pozycji Przekształć dane przejdziesz do edytora Power Query, gdzie możesz określić, czy w danych występują anomalie.  Anomalie danych to wartości odstające w danych. Określenie, jakie są te anomalie, pomoże Ci określić, jaki jest prawidłowy rozkład Twoich danych i czy istnieją jakieś konkretne punkty danych, które musisz dokładniej zbadać. Edytor Power Query określa anomalie danych przy użyciu funkcji rozkładu kolumn.

Wybierz pozycję Widok na wstążce, a następnie w obszarze Podgląd danych możesz wybrać jedną z kilku opcji. Aby zrozumieć anomalie i statystyki danych, wybierz opcje Rozkład kolumn, Jakość kolumn i Profil kolumny .  Na poniższej ilustracji przedstawiono statystyki, które się pojawią.

Jakość kolumn i rozkład kolumn są wyświetlane na wykresach powyżej kolumn danych. Jakość kolumn pokazuje wartości procentowe danych, które są prawidłowe, w błędzie i puste. W idealnej sytuacji 100 procent danych będzie prawidłowych.

anomalie i statystyki danych dla kolumny danych

Uwaga

Domyślnie Power Query bada pierwsze 1000 wierszy zestawu danych. Aby to zmienić, wybierz stan profilowania na pasku stanu i wybierz pozycję Profilowanie kolumn w oparciu o cały zestaw danych. ]

Rozkład kolumn pokazuje rozkład danych w kolumnie oraz liczbę odrębnych i unikatowych wartości, które mogą być źródłem szczegółowych informacji na temat liczby danych. Różne wartości to wszystkie różne wartości w kolumnie, w tym duplikaty i wartości null, podczas gdy unikatowe wartości nie zawierają duplikatów ani wartości null. W związku z tym unikatowe w tej tabeli informuje o łącznej liczbie obecnych wartości, podczas gdy unikatowa informuje , ile z tych wartości jest wyświetlanych tylko raz.

Profil kolumny zapewnia bardziej szczegółowe spojrzenie na statystyki w kolumnach dla pierwszych 1000 wierszy danych. Ta kolumna udostępnia kilka różnych wartości, w tym liczbę wierszy, co jest istotne podczas sprawdzania, czy import danych się powiódł. Jeśli na przykład oryginalna baza danych zawierała 100 wierszy, można użyć tej liczby wierszy do potwierdzenia, że rzeczywiście zaimportowano prawidłowo 100 wierszy. Ponadto ta liczba wierszy pokaże liczbę wierszy, które usługa Power BI uznała za wartości odstające, puste wiersze i ciągi oraz minimalną i maksymalną, co spowoduje wyświetlenie najmniejszej i największej wartości w kolumnie, odpowiednio. To rozróżnienie jest szczególnie ważne w przypadku danych liczbowych, ponieważ natychmiast powiadomi Cię, jeśli masz maksymalną wartość, która wykracza poza to, co firma identyfikuje jako "maksymalną". Ta wartość zwraca uwagę na te wartości, co oznacza, że możesz skupić swoje wysiłki podczas zagłębiania się w dane.  Gdyby te dane były w kolumnie tekstowej, jak pokazano na poprzedniej ilustracji, wartość minimalna byłaby pierwszą wartością, a wartość maksymalna — ostatnią wartością w kolejności alfabetycznej.

Ponadto wykres rozkładu wartości informuje o liczbach dla każdej odrębnej wartości w tej konkretnej kolumnie. Patrząc na wykres w poprzedniej ilustracji, zwróć uwagę, że rozkład wartości wskazuje, że "Anthony Gross" pojawia się największą liczbę razy w kolumnie SalesPerson i że "Lily Code" jest wyświetlana najmniejsza liczba razy. Ta informacja jest szczególnie istotna, ponieważ określa wartości odstające.  Jeśli wartość pojawia się znacznie częściej niż inne wartości w kolumnie, funkcja Rozkład wartości pokazuje, od czego należy zacząć poszukiwanie przyczyn.

W kolumnie liczbowej statystyka kolumn będzie również zawierać liczbę zer i wartości null, a także średnią wartość w kolumnie, odchylenie standardowe wartości w kolumnie oraz liczbę parzystych i nieparzystych wartości w kolumnie. Te dane statystyczne dają obraz rozkładu danych w kolumnie i są ważne, ponieważ podsumowują dane w kolumnie i służą jako punkt początkowy do określenia wartości odstających.

Na przykład podczas przeglądania danych faktury widać, że wykres rozkładu wartości pokazuje, że kilku sprzedawców w kolumnie SalesPerson ma taką samą liczbę razy w danych. Ponadto zauważysz, że ta sama sytuacja wystąpiła w kolumnie Profit (Zysk ) i w kilku innych tabelach. Podczas badania odkrywasz, że używane dane były nieprawidłowe i powinny zostać odświeżone, a więc natychmiast wykonujesz odświeżenie danych. Bez wyświetlenia tego grafu ten błąd być może nie zostałby zauważony tak szybko i to dlatego sprawdzenie rozkładu wartości jest niezbędne.

Po zakończeniu edycji w Edytor Power Query i przystąpieniu do rozpoczęcia tworzenia wizualizacji wróć do strony głównej na wstążce Edytor Power Query. Wybierz pozycję Zamknij & Zastosuj, co spowoduje powrót do Power BI Desktop, a wszystkie zmiany/przekształcenia kolumn zostaną również zastosowane.

Ustalono teraz, że elementy tworzące dane profilowania w usłudze Power BI, które obejmują ładowanie danych w usłudze Power BI, przesłuchiywanie właściwości kolumn w celu uzyskania jasności i wprowadzania dalszych edycji typu i formatu danych w kolumnach, znajdowania anomalii danych i wyświetlania statystyk danych w Edytor Power Query. Dzięki tej wiedzy do swojego zestawu narzędzi możesz dodać umiejętność badania danych w sposób efektywny i skuteczny.