Udostępnij za pośrednictwem


Jak profilować źródła danych w usłudze Azure Data Catalog

Ważne

Usługa Azure Data Catalog została wycofana 15 maja 2024 r.

W przypadku funkcji wykazu danych użyj usługi Microsoft Purview , która oferuje ujednolicony nadzór nad danymi dla całego majątku danych.

Wprowadzenie

Usługa Microsoft Azure Data Catalog to w pełni zarządzana usługa w chmurze, która służy jako system rejestracji i systemu odnajdywania dla źródeł danych przedsiębiorstwa. Innymi słowy, usługa Azure Data Catalog polega na pomaganiu ludziom w odkrywaniu, interpretowaniu i używaniu źródeł danych oraz pomaganiu organizacjom w uzyskiwaniu większej wartości z istniejących danych. Po zarejestrowaniu źródła danych w usłudze Azure Data Catalog jego metadane są kopiowane i indeksowane przez usługę, ale historia się tam nie kończy.

Funkcja profilowania danych usługi Azure Data Catalog analizuje dane z obsługiwanych źródeł danych w katalogu i zbiera statystyki i informacje o tych danych. Łatwo jest dołączyć profil zasobów danych. Podczas rejestrowania zasobu danych wybierz pozycję Uwzględnij profil danych w narzędziu rejestracji źródła danych.

Co to jest profilowanie danych?

Profilowanie danych sprawdza dane w zarejestrowanym źródle danych i zbiera statystyki i informacje o tych danych. Podczas odnajdywania źródeł danych te statystyki mogą pomóc w określeniu przydatności danych do rozwiązania ich problemu biznesowego.

Następujące źródła danych obsługują profilowanie danych:

  • Tabele i widoki programu SQL Server (w tym usługi Azure SQL DB i Azure Synapse Analytics)
  • Tabele i widoki Oracle
  • Tabele i widoki teradata
  • Tabele Hive

Uwzględnianie profilów danych podczas rejestrowania zasobów danych pomaga użytkownikom odpowiedzieć na pytania dotyczące źródeł danych, w tym:

  • Czy można go użyć do rozwiązania mojego problemu biznesowego?
  • Czy dane są zgodne z określonymi standardami lub wzorcami?
  • Jakie są niektóre anomalie źródła danych?
  • Jakie są możliwe wyzwania związane z integracją tych danych z moją aplikacją?

Uwaga

Możesz również dodać dokumentację do zasobu, aby opisać, jak można zintegrować dane z aplikacją. Zobacz Jak dokumentować źródła danych.

Jak dołączyć profil danych podczas rejestrowania źródła danych

Łatwo jest dołączyć profil źródła danych. Podczas rejestrowania źródła danych w panelu Obiekty, które mają być zarejestrowane w narzędziu rejestracji źródła danych, wybierz pozycję Uwzględnij profil danych.

Pole Dołącz profil danych jest zaznaczone w dolnej części okna Obiekty do zarejestrowania.

Aby dowiedzieć się więcej na temat rejestrowania źródeł danych, zobacz Jak rejestrować źródła danych i rozpoczynać pracę z usługą Azure Data Catalog.

Filtrowanie zasobów danych zawierających profile danych

Aby odnaleźć zasoby danych, które zawierają profil danych, możesz dołączyć has:tableDataProfiles lub has:columnsDataProfiles jako jeden z terminów wyszukiwania.

Uwaga

Wybranie pozycji Uwzględnij profil danych w narzędziu rejestracji źródła danych obejmuje informacje o profilu na poziomie tabeli i kolumny. Jednak interfejs API usługi Data Catalog umożliwia zarejestrowanie zasobów danych przy użyciu tylko jednego zestawu informacji o profilu.

Wyświetlanie informacji o profilu danych

Po znalezieniu odpowiedniego źródła danych z profilem możesz wyświetlić szczegóły profilu danych. Aby wyświetlić profil danych, wybierz zasób danych i wybierz pozycję Profil danych w oknie portalu usługi Data Catalog.

Karta profilu danych jest wybierana w górnej części strony między kolumnami a dokumentacją.

Profil danych w usłudze Azure Data Catalog zawiera informacje o profilu tabeli i kolumny, w tym:

Profil danych obiektu

  • Liczba wierszy
  • Rozmiar tabeli
  • Kiedy obiekt został ostatnio zaktualizowany

Profil danych kolumny

  • Typy danych w kolumnach
  • Liczba unikatowych wartości
  • Liczba wierszy z wartościami NULL
  • Minimalne, maksymalne, średnie i odchylenie standardowe dla wartości kolumn

Podsumowanie

Profilowanie danych zapewnia statystyki i informacje o zarejestrowanych zasobach danych, aby ułatwić określenie przydatności danych do rozwiązywania problemów biznesowych. Oprócz dodawania adnotacji i dokumentowania źródeł danych profile danych mogą zapewnić użytkownikom dokładniejsze zrozumienie danych.

Zobacz też