Wprowadzenie

Ukończone

Rozważmy scenariusz, w którym zaimportowano dane do usługi Power BI z kilku różnych źródeł i podczas sprawdzania danych okazało się, że nie są one przygotowane do analizy. Jaka może być przyczyna nieprzygotowania danych do analizy?

Podczas badania danych wykryto kilka problemów, takich jak:

  • Kolumna o nazwie Employment status (Status zatrudnienia) zawiera tylko cyfry.

  • Kilka kolumn zawiera błędy.

  • Niektóre kolumny zawierają wartości null.

  • Identyfikator klienta w niektórych kolumnach wygląda tak, jakby został wielokrotnie powtórzony.

  • Jedna kolumna adresu zawiera połączone informacje o nazwie ulicy, mieście, stanie i kodzie pocztowym.

Rozpoczynasz pracę z danymi, ale za każdym razem, gdy tworzysz wizualizacje w raportach, otrzymujesz złe dane lub nieprawidłowe wyniki, a proste raporty dotyczące łącznych wartości sprzedaży są nieprawidłowe.

Brudne dane mogą być przytłaczające i choć może być sfrustrowane, postanawiasz dostać się do pracy i dowiedzieć się, jak uczynić ten semantyczny model tak nieskazitelnym, jak to możliwe.

Na szczęście usługa Power BI i edytor Power Query oferują zaawansowane środowisko do czyszczenia i przygotowywania danych. Czyste dane zapewniają następujące korzyści:

  • Miary i kolumny dają dokładniejsze wyniki, gdy wykonują agregacje i obliczenia.

  • Dane są zorganizowane w tabele, gdzie użytkownicy mogą je znaleźć w intuicyjny sposób.

  • Duplikaty są usuwane, co upraszcza nawigowanie po danych. Utworzone w ten sposób kolumny będą mogły być używane przez fragmentatory i filtry.

  • Skomplikowaną kolumnę można podzielić na dwie prostsze kolumny. Wiele kolumn można połączyć w jedną kolumnę w celu zapewnienia czytelności.

  • Kody i liczby całkowite można zamienić na wartości czytelne dla ludzi.

Ten moduł obejmuje następujące zagadnienia:

  • Rozwiązywanie niespójności, nieoczekiwanych wartości lub wartości null oraz problemów z jakością danych.

  • Stosowanie przyjaznych dla użytkownika zamienników wartości.

  • Profilowanie danych, aby można się było dowiedzieć czegoś więcej o określonej kolumnie przed jej użyciem.

  • Ocenianie i przekształcanie typów danych w kolumnach.

  • Stosowanie przekształcania kształtu danych do struktur tabeli.

  • Łączenie zapytań.

  • Stosowanie przyjaznych dla użytkownika konwencji nazewnictwa do kolumn i zapytań.

  • Edytowanie kodu M w edytorze zaawansowanym.