Udostępnij za pośrednictwem


Jakość danych

Jakość danych to funkcja zarządzania analizą w skali chmury. Znajduje się on w strefie docelowej zarządzania danymi i jest główną częścią ładu.

Zagadnienia dotyczące jakości danych

Jakość danych to odpowiedzialność każdej osoby, która tworzy produkty danych i korzysta z nich. Twórcy powinni przestrzegać reguł globalnych i domen, podczas gdy użytkownicy powinni zgłaszać niespójności danych do domeny danych właścicieli za pośrednictwem pętli opinii.

Ponieważ jakość danych wpływa na wszystkie dane dostarczone do tablicy, powinna zaczynać się od góry organizacji. Zarząd powinien mieć wgląd w jakość dostarczonych im danych.

Jednak bycie proaktywnym nadal wymaga posiadania ekspertów w zakresie jakości danych, którzy mogą czyścić zasobniki danych, które wymagają korygowania. Należy unikać wypychania tej pracy do centralnego zespołu i zamiast tego kierować do domeny danych, z konkretną wiedzą na temat danych, aby oczyścić dane.

Metryki jakości danych

Metryki jakości danych są kluczem do oceny i zwiększenia jakości produktów danych. Na poziomie globalnym i domeny należy zdecydować o metrykach jakości. Zalecamy co najmniej następujące metryki.

Metryki Definicje metryk
Kompletność = % całkowitej liczby wartości innych niż null i niepustych Mierzy dostępność danych, pola w zestawie danych, które nie są puste, i wartości domyślne, które zostały zmienione. Jeśli na przykład rekord zawiera dane urodzenia 01/01/01/1900, jest bardzo prawdopodobne, że pole nigdy nie zostało wypełnione.
Unikatowość = % nieduplikowanych wartości Mierzy odrębne wartości w danej kolumnie w porównaniu z liczbą wierszy w tabeli. Na przykład przy użyciu czterech odrębnych wartości kolorów (czerwony, niebieski, żółty i zielony) w tabeli z pięcioma wierszami pole to 80% (lub 4/5) unikatowe.
Spójność = % danych o wzorcach Mierzy zgodność w danej kolumnie z oczekiwanym typem lub formatem danych. Na przykład pole poczty e-mail zawierające sformatowane adresy e-mail lub pole nazwy z wartościami liczbowymi.
Ważność = % dopasowania odwołania Mierzy pomyślne dopasowanie danych do zestawu odwołań do domeny. Na przykład, biorąc pod uwagę pole kraju/regionu (zgodne z wartościami taksonomii) w systemie rekordów transakcyjnych, wartość "US of A" jest nieprawidłowa.
Dokładność = % niezterowanych wartości Mierzy pomyślne odtworzenie zamierzonych wartości w wielu systemach. Jeśli na przykład faktura ujedzoruje jednostkę SKU i cenę rozszerzoną, która różni się od oryginalnego zamówienia, element wiersza faktury jest niedokładny.
Połączenie = % dobrze zintegrowanych danych Mierzy pomyślne skojarzenie ze szczegółami referencyjnymi towarzyszącymi w innym systemie. Jeśli na przykład faktura zawiera niepoprawny opis jednostki SKU lub produktu, element wiersza faktury nie jest linkowalny.

Profilowanie danych

Profilowanie danych analizuje zarejestrowane produkty danych, w wykazie danych oraz zbiera statystyki i informacje o tych danych. Aby zapewnić podsumowanie i widoki trendów dotyczące jakości danych w czasie, zapisz te dane w repozytorium metadanych względem produktu danych.

Profile danych ułatwiają użytkownikom odpowiadanie na pytania dotyczące produktów danych, w tym:

  • Czy można go użyć do rozwiązania mojego problemu biznesowego?
  • Czy dane są zgodne z określonymi standardami lub wzorcami?
  • Jakie są niektóre anomalie źródła danych?
  • Jakie są możliwe wyzwania związane z integracją tych danych z moją aplikacją?

Użytkownicy mogą wyświetlać profil produktu danych przy użyciu pulpitu nawigacyjnego raportowania na platformie handlowej danych.

Możesz zgłaszać takie elementy jak:

  • Kompletność: wskazuje wartość procentową danych, która nie jest pusta lub ma wartość null
  • Unikatowość: wskazuje procent danych, które nie są zduplikowane
  • Spójność: wskazuje dane, w których jest utrzymywana integralność danych

Zalecenia dotyczące jakości danych

Aby zaimplementować jakość danych, należy użyć zarówno mocy ludzkiej, jak i obliczeniowej w następujący sposób:

  • Użyj rozwiązań, które obejmują algorytmy, reguły, profilowanie danych i metryki.

  • Skorzystaj z ekspertów w dziedzinie domeny, którzy mogą wykonać kroki w przypadku wymagania wytrenowania algorytmu z powodu dużej liczby błędów przechodzących przez warstwę obliczeniową.

  • Zweryfikuj wcześnie. Tradycyjne rozwiązania wyodrębniły, przekształcone i załadowały dane przed zastosowaniem jakiejkolwiek jakości danych. Do tego czasu produkt danych jest już używany, a błędy są udostępniane produktom danych podrzędnych. Zamiast tego, ponieważ dane są pozyskiwane ze źródła, zaimplementuj kontrole jakości danych w pobliżu źródeł i zanim odbiorcy podrzędni będą używać produktów danych. W przypadku pozyskiwania wsadowego z usługi Data Lake wykonaj te testy podczas przenoszenia danych z nieprzetworzonych do wzbogaconych.

    Diagram przedstawiający sposób implementowania jakości danych podczas pozyskiwania.

  • Przed przeniesieniem danych do wzbogaconej warstwy jego schemat i kolumny są sprawdzane względem metadanych zarejestrowanych w wykazie danych.

  • Jeśli dane zawierają błędy, obciążenie zostanie zatrzymane, a zespół aplikacji danych powiadomił o niepowodzeniu.

  • Jeśli schemat i kolumna będą sprawdzane, dane są ładowane do wzbogaconych warstw z zgodnymi typami danych.

  • Przed przejściem do wzbogaconej warstwy proces jakości danych sprawdza zgodność z algorytmami i regułami.

Porada

Zdefiniuj reguły jakości danych zarówno na poziomie globalnym, jak i domeny. Dzięki temu firma może zdefiniować standardy dla każdego utworzonego produktu danych i umożliwia domenom danych tworzenie dodatkowych reguł związanych z ich domeną.

Rozwiązania dotyczące jakości danych

Od lutego 2022 r. firma Microsoft zależy od partnerów, rozwiązań typu open source i niestandardowych rozwiązań w celu zapewnienia rozwiązania do jakości danych. Zachęcamy do oceny partnerów, takich jak Informatica, Talend, CluedIn i Ataccama One.

W przypadku rozwiązań typu open source firmy wdrożyły narzędzie Great Expectations do swoich potoków danych.

Podsumowanie jakości danych

Naprawianie jakości danych może mieć poważne konsekwencje dla firmy. Może to prowadzić do tego, że jednostki biznesowe interpretują produkty danych na różne sposoby. Ta błędna interpretacja może okazać się kosztowna dla decyzji biznesowych dotyczących produktów danych o niższej jakości danych. Naprawianie produktów danych z brakującymi atrybutami może być kosztownym zadaniem i może wymagać pełnego ponownego ładowania danych z liczby okresów.

Zweryfikuj jakość danych na wczesnym etapie i umieść procesy w celu proaktywnego reagowania na niską jakość danych. Na przykład produkt danych nie może zostać wydany do środowiska produkcyjnego, dopóki nie osiągnie określonej ilości kompletności.

Możesz użyć narzędzi jako wolnego wyboru, ale upewnij się, że zawiera oczekiwania (reguły), metryki danych, profilowanie i możliwość zabezpieczenia oczekiwań, aby można było zaimplementować oczekiwania globalne i oparte na domenie.

Następne kroki