Jak profilować źródła danych w usłudze Azure Data Catalog
Ważne
Usługa Azure Data Catalog została wycofana 15 maja 2024 r.
W przypadku funkcji wykazu danych użyj usługi Microsoft Purview , która oferuje ujednolicony nadzór nad danymi dla całego majątku danych.
Wprowadzenie
Usługa Microsoft Azure Data Catalog to w pełni zarządzana usługa w chmurze, która służy jako system rejestracji i systemu odnajdywania dla źródeł danych przedsiębiorstwa. Innymi słowy, usługa Azure Data Catalog polega na pomaganiu ludziom w odkrywaniu, interpretowaniu i używaniu źródeł danych oraz pomaganiu organizacjom w uzyskiwaniu większej wartości z istniejących danych. Po zarejestrowaniu źródła danych w usłudze Azure Data Catalog jego metadane są kopiowane i indeksowane przez usługę, ale historia się tam nie kończy.
Funkcja profilowania danych usługi Azure Data Catalog analizuje dane z obsługiwanych źródeł danych w katalogu i zbiera statystyki i informacje o tych danych. Łatwo jest dołączyć profil zasobów danych. Podczas rejestrowania zasobu danych wybierz pozycję Uwzględnij profil danych w narzędziu rejestracji źródła danych.
Co to jest profilowanie danych?
Profilowanie danych sprawdza dane w zarejestrowanym źródle danych i zbiera statystyki i informacje o tych danych. Podczas odnajdywania źródeł danych te statystyki mogą pomóc w określeniu przydatności danych do rozwiązania ich problemu biznesowego.
Następujące źródła danych obsługują profilowanie danych:
- Tabele i widoki programu SQL Server (w tym usługi Azure SQL DB i Azure Synapse Analytics)
- Tabele i widoki Oracle
- Tabele i widoki teradata
- Tabele Hive
Uwzględnianie profilów danych podczas rejestrowania zasobów danych pomaga użytkownikom odpowiedzieć na pytania dotyczące źródeł danych, w tym:
- Czy można go użyć do rozwiązania mojego problemu biznesowego?
- Czy dane są zgodne z określonymi standardami lub wzorcami?
- Jakie są niektóre anomalie źródła danych?
- Jakie są możliwe wyzwania związane z integracją tych danych z moją aplikacją?
Uwaga
Możesz również dodać dokumentację do zasobu, aby opisać, jak można zintegrować dane z aplikacją. Zobacz Jak dokumentować źródła danych.
Jak dołączyć profil danych podczas rejestrowania źródła danych
Łatwo jest dołączyć profil źródła danych. Podczas rejestrowania źródła danych w panelu Obiekty, które mają być zarejestrowane w narzędziu rejestracji źródła danych, wybierz pozycję Uwzględnij profil danych.
Aby dowiedzieć się więcej na temat rejestrowania źródeł danych, zobacz Jak rejestrować źródła danych i rozpoczynać pracę z usługą Azure Data Catalog.
Filtrowanie zasobów danych zawierających profile danych
Aby odnaleźć zasoby danych, które zawierają profil danych, możesz dołączyć has:tableDataProfiles
lub has:columnsDataProfiles
jako jeden z terminów wyszukiwania.
Uwaga
Wybranie pozycji Uwzględnij profil danych w narzędziu rejestracji źródła danych obejmuje informacje o profilu na poziomie tabeli i kolumny. Jednak interfejs API usługi Data Catalog umożliwia zarejestrowanie zasobów danych przy użyciu tylko jednego zestawu informacji o profilu.
Wyświetlanie informacji o profilu danych
Po znalezieniu odpowiedniego źródła danych z profilem możesz wyświetlić szczegóły profilu danych. Aby wyświetlić profil danych, wybierz zasób danych i wybierz pozycję Profil danych w oknie portalu usługi Data Catalog.
Profil danych w usłudze Azure Data Catalog zawiera informacje o profilu tabeli i kolumny, w tym:
Profil danych obiektu
- Liczba wierszy
- Rozmiar tabeli
- Kiedy obiekt został ostatnio zaktualizowany
Profil danych kolumny
- Typy danych w kolumnach
- Liczba unikatowych wartości
- Liczba wierszy z wartościami NULL
- Minimalne, maksymalne, średnie i odchylenie standardowe dla wartości kolumn
Podsumowanie
Profilowanie danych zapewnia statystyki i informacje o zarejestrowanych zasobach danych, aby ułatwić określenie przydatności danych do rozwiązywania problemów biznesowych. Oprócz dodawania adnotacji i dokumentowania źródeł danych profile danych mogą zapewnić użytkownikom dokładniejsze zrozumienie danych.