Udostępnij za pośrednictwem


Co to jest katalog Unity?

W tym artykule przedstawiono Unity Catalog, zunifikowane rozwiązanie do zarządzania danymi i zasobami AI w usłudze Azure Databricks. Objaśnia kluczowe pojęcia i zawiera omówienie sposobu używania Unity Catalog do zarządzania danymi.

Uwaga

Katalog Unity jest również dostępny jako implementacja open-source. Zapoznaj się z blogiem z ogłoszeniami i publicznym repozytorium GitHub Unity Catalog.

Omówienie katalogu Unity

Katalog Unity to scentralizowany katalog danych, który zapewnia kontrolę dostępu, audyty, śledzenie pochodzenia, monitorowanie jakości oraz funkcje odnajdywania danych w workspace'ach usługi Azure Databricks.

Kluczowe cechy katalogu Unity obejmują:

  • Zdefiniuj raz, zabezpiecz wszędzie: Katalog Unity oferuje jedno miejsce do zarządzania zasadami dostępu do danych, które mają zastosowanie we wszystkich obszarach roboczych w regionie.
  • Model zabezpieczeń zgodny ze standardami: model zabezpieczeń katalogu Unity jest oparty na standardowym języku ANSI SQL i umożliwia administratorom udzielanie uprawnień w istniejącym jeziorze danych ze znajomą składnią.
  • Wbudowany audyt i pochodzenie danych: Katalog Unity automatycznie przechwytuje dzienniki audytowe użytkownika, które rejestrują dostęp do Twoich danych. Katalog Unity przechwytuje również dane rodowodowe, które śledzą, w jaki sposób zasoby danych są tworzone i wykorzystywane we wszystkich językach.
  • Odnajdywanie danych: usługa Unity Catalog umożliwia tagowanie i dokumentowanie zasobów danych oraz udostępnia interfejs wyszukiwania, który ułatwia konsumentom danych znajdowanie danych.
  • Tabele systemowe: Unity Catalog umożliwia łatwy dostęp do danych operacyjnych konta i przeprowadzanie zapytań, w tym działalności audytowej, rozliczanego zużycia oraz pochodzenia danych.

Repozytorium metadanych

Metamagazyn jest kontenerem najwyższego poziomu dla metadanych w Unity Catalog. Rejestruje metadane dotyczące danych i zasobów sztucznej inteligencji oraz uprawnienia, które zarządzają dostępem do nich. Aby obszar roboczy mógł korzystać z Unity Catalog, musi być do niego dołączony metastore Unity Catalog. Musisz mieć jeden magazyn metadanych dla każdego regionu, w którym masz obszary robocze.

W przeciwieństwie do magazynu metadanych Hive, magazyn metadanych Unity Catalog nie stanowi granicy usługi: działa w środowisku wielodostępnym i reprezentuje logiczną granicę dla segregacji danych według regionów dla danego konta usługi Azure Databricks.

Model obiektów Katalogu Unity

W metastore Unity Catalog hierarchia obiektów bazy danych trzypoziomowej składa się z katalogów zawierających schematy, które z kolei zawierają dane i obiekty sztucznej inteligencji, takie jak tabele i modele. Ta hierarchia jest reprezentowana jako trzy-poziomowa przestrzeń nazw (catalog.schema.table-etc) podczas odwołowania się do tabel, widoków, woluminów, modeli i funkcji.

Diagram modelu obiektów katalogu Unity

Poziom jeden:

Poziom drugi:

  • Schematy (znane również jako bazy danych) zawierają tabele, widoki, woluminy, modele sztucznej inteligencji i funkcje. Schematy organizują dane i zasoby sztucznej inteligencji w kategorie logiczne, które są bardziej szczegółowe niż wykazy. Zazwyczaj schemat reprezentuje pojedynczy przypadek użycia, projekt lub piaskownicę zespołu. Zobacz Co to są schematy w usłudze Azure Databricks?.

Poziom trzeci:

  • Tabele to kolekcje danych uporządkowane według wierszy i kolumn. Tabele mogą być albo zarządzane, gdzie Unity Catalog zarządza pełnym cyklem życia tabeli, albo zewnętrzne, gdzie Unity Catalog zarządza dostępem do danych z poziomu Azure Databricks, ale nie zarządza dostępem do danych w magazynie w chmurze dla innych klientów. Zobacz Wprowadzenie do tabel usługi Azure Databricks oraz Tabele i woluminy zarządzane a zewnętrzne.
  • Widoki są zapisanymi zapytaniami do jednej lub kilku tabel. Sprawdź Co to jest widok?.
  • Woluminy reprezentują logiczne przestrzenie danych w magazynie obiektów w chmurze. Za pomocą woluminów można przechowywać, organizować i uzyskiwać dostęp do plików w dowolnym formacie, w tym ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane dane. Zazwyczaj są one używane dla danych nie tabelarycznych. Woluminy mogą być zarządzane, co oznacza, że Unity Catalog zarządza pełnym cyklem życia i układem danych w magazynie. Alternatywnie, mogą być zewnętrzne, gdzie Unity Catalog zarządza dostępem do danych z poziomu usługi Azure Databricks, ale nie zarządza dostępem do danych w magazynie w chmurze z poziomu innych klientów. Zobacz Co to są woluminy Unity Catalog? oraz Zarządzane a zewnętrzne tabele i woluminy.
  • Funkcje to jednostki zapisanej logiki, które zwracają wartość skalarną lub zestaw wierszy. Zobacz Funkcje zdefiniowane przez użytkownika (UDF) w katalogu Unity Catalog.
  • Modele to modele sztucznej inteligencji spakowane za pomocą MLflow i zarejestrowane w Unity Catalog jako funkcje. Zobacz Zarządzanie cyklem życia modelu w katalogu Unity.

Obiekty możliwe do zabezpieczenia, które Unity Catalog używa do zarządzania dostępem do zewnętrznych źródeł danych

Oprócz obiektów bazy danych i zasobów sztucznej inteligencji, które znajdują się w schematach, Unity Catalog również korzysta z następujących obiektów podlegających zabezpieczeniom do zarządzania dostępem do magazynu w chmurze i innych zewnętrznych źródeł danych i usług:

Obiekty zabezpieczalne używane przez Unity Catalog do zarządzania dostępem do udostępnionych zasobów

Unity Catalog używa następujących zabezpieczalnych obiektów do zarządzania udostępnianiem danych i zasobów sztucznej inteligencji w obrębie metastore'u lub granic organizacyjnych.

  • Czyste pokoje reprezentujące środowisko zarządzane przez usługę Databricks, w którym wielu uczestników może współpracować nad projektami bez udostępniania sobie danych bazowych. Zobacz Co to jest usługa Azure Databricks Clean Rooms?.
  • Udziały, które są obiektami Delta Sharing reprezentującymi kolekcję tylko do odczytu danych i zasobów sztucznej inteligencji, którymi dostawca danych dzieli się z jednym lub większą liczbą odbiorców.
  • Adresaci, czyli obiekty udostępniania różnicowego reprezentujące jednostkę odbierającą udziały od dostawcy danych.
  • Dostawcy, które są obiektami Delta Sharing reprezentującymi podmiot, który udostępnia dane odbiorcy.

Aby uzyskać więcej informacji na temat obiektów Delta Sharing, zobacz Co to jest Delta Sharing?.

Role administracyjne

Następujące role administratorów usługi Azure Databricks mają domyślnie szereg uprawnień Unity Catalog:

  • Administratorzy konta: mogą tworzyć magazyny metadanych, łączyć obszary robocze z magazynami metadanych, dodawać użytkowników i przypisywać uprawnienia do magazynów metadanych.
  • Administratorzy obszaru roboczego: mogą dodawać użytkowników do obszaru roboczego i zarządzać wieloma obiektami specyficznymi dla obszaru roboczego, takimi jak zadania i notesy. W zależności od obszaru roboczego administratorzy obszaru roboczego mogą również mieć wiele uprawnień do magazynu metadanych dołączonego do obszaru roboczego.
  • Administratorzy magazynu metadanych: ta opcjonalna rola jest wymagana, jeśli chcesz zarządzać magazynem tabel i woluminów na poziomie magazynu metadanych. Jest również wygodne, jeśli chcesz centralnie zarządzać danymi w wielu obszarach roboczych w regionie.

Aby uzyskać więcej informacji, zobacz Uprawnienia administratora w Unity Catalog.

Udzielanie i odwołowanie dostępu do zabezpieczanych obiektów

Uprzywilejowani użytkownicy mogą udzielać i odwoływać dostęp do zabezpieczanych obiektów na dowolnym poziomie w hierarchii, w tym samego magazynu metadanych. Dostęp do obiektu niejawnie udziela tego samego dostępu wszystkim elementom podrzędnym tego obiektu, chyba że dostęp zostanie cofnięty.

Można używać typowych poleceń ANSI SQL do udzielania i odwoływania dostępu do obiektów w Unity Catalog. Na przykład:

GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;

Do zarządzania uprawnieniami obiektów można również użyć Eksploratora wykazu, interfejsu wiersza polecenia usługi Databricks i interfejsów API REST.

Udzielanie uprawnień przy użyciu Eksploratora katalogu

Administratorzy magazynu metadanych, właściciele obiektu i użytkownicy z MANAGE privilege obiektem na obiekcie mogą udzielać i odwoływać dostęp. Aby dowiedzieć się, jak zarządzać uprawnieniami w Unity Catalog, zobacz Zarządzanie uprawnieniami w Unity Catalog.

Domyślny dostęp do obiektów bazy danych w katalogu Unity Catalog

Katalog Unity działa na zasadzie najmniejszych uprawnień, gdzie użytkownicy mają niezbędne minimum dostępu, którego potrzebują do wykonywania wymaganych zadań. Po utworzeniu obszaru roboczego użytkownicy niebędący administratorami mają dostęp tylko do automatycznie aprowizowanego katalogu obszarów roboczych, co sprawia, że ten katalog jest wygodnym miejscem dla użytkowników w celu wypróbowania procesu tworzenia i uzyskiwania dostępu do obiektów bazy danych w katalogu Unity. Zobacz Uprawnienia katalogu obszarów roboczych.

Praca z obiektami bazy danych w Unity Catalog

Praca z obiektami bazy danych w Unity Catalog jest bardzo podobna do pracy z obiektami bazy danych, które są zarejestrowane w metastore Hive, z wyjątkiem tego, że metastore Hive nie zawiera katalogów w przestrzeni nazw. Możesz użyć znanej składni ANSI do tworzenia obiektów bazy danych, zarządzania obiektami bazy danych, zarządzania uprawnieniami i pracy z danymi w wykazie aparatu Unity. Można również tworzyć obiekty bazy danych, zarządzać obiektami bazy danych i zarządzać uprawnieniami do obiektów bazy danych przy użyciu interfejsu użytkownika Eksploratora wykazu.

Aby uzyskać więcej informacji, zobacz Database objects in Azure Databricks (Obiekty bazy danych w usłudze Azure Databricks).

Zarządzane i zewnętrzne tabele i woluminy

Tabele i wolumeny mogą być zarządzane albo zewnętrzne.

  • Tabele zarządzane są w pełni zarządzane przez Unity Catalog, co oznacza, że Unity Catalog zarządza zarówno zarządzaniem, jak i bazowymi plikami danych dla każdej zarządzanej tabeli. Tabele zarządzane są przechowywane w lokalizacji zarządzanej przez Unity Catalog w magazynie w chmurze. Tabele zarządzane zawsze używają formatu usługi Delta Lake. Tabele zarządzane można przechowywać na poziomach magazynu metadanych, katalogu lub schematu.
  • Tabele zewnętrzne to tabele, których dostęp z usługi Azure Databricks jest zarządzany przez Unity Catalog, ale których cykl życia danych i układ plików są zarządzane za pomocą dostawcy chmury oraz innych platform danych. Zazwyczaj używasz tabel zewnętrznych do rejestrowania dużych ilości istniejących danych w usłudze Azure Databricks lub jeśli potrzebujesz również dostępu do zapisu do danych przy użyciu narzędzi spoza usługi Azure Databricks. Tabele zewnętrzne są obsługiwane w wielu formatach danych. Po zarejestrowaniu tabeli zewnętrznej w metasklepie Unity Catalog, możesz zarządzać dostępem i przeprowadzać audyt dostępu w usłudze Azure Databricks---i pracować z nią---dokładnie tak jak w przypadku tabel zarządzanych.
  • Woluminy zarządzane są w pełni zarządzane przez Unity Catalog, co oznacza, że Unity Catalog zarządza dostępem do lokalizacji magazynu woluminu na koncie dostawcy chmury. Tworząc wolumin zarządzany, jest on automatycznie przechowywany w zarządzanej lokalizacji magazynu, przypisanej do powiązanego schematu.
  • Woluminy zewnętrzne reprezentują istniejące dane w lokalizacjach przechowywania zarządzanych poza Azure Databricks, ale zarejestrowane w Unity Catalogu w celu kontrolowania i audytowania dostępu z wewnątrz Azure Databricks. Podczas tworzenia woluminu zewnętrznego w usłudze Azure Databricks należy określić jego lokalizację, która musi znajdować się na ścieżce zdefiniowanej w lokalizacji zewnętrznej aparatu Unity Catalog.

Usługa Databricks zaleca stosowanie zarządzanych tabel i woluminów w większości przypadków użycia, ponieważ pozwalają one w pełni wykorzystać możliwości zarządzania danymi w katalogu Unity oraz zoptymalizować wydajność. Aby uzyskać informacje na temat typowych przypadków użycia tabel i woluminów zewnętrznych, zobacz Zarządzane i zewnętrzne tabele oraz Woluminy zarządzane i zewnętrzne.

Zobacz również:

Magazynowanie w chmurze i izolacja danych

Unity Catalog używa przechowywania w chmurze na dwa podstawowe sposoby:

  • Magazyn zarządzany: domyślne lokalizacje dla zarządzanych tabel i woluminów zarządzanych (dane nieustrukturyzowane, inne niż tabelaryczne), które są tworzone w usłudze Azure Databricks. Te zarządzane lokalizacje magazynu można zdefiniować na poziomie magazynu metadanych, katalogu lub schematu. Tworzysz zarządzane lokalizacje magazynu u swojego dostawcy usług w chmurze, ale ich cykl życia jest w pełni zarządzany przez Unity Catalog.
  • Miejsca przechowywania, w których przechowywane są zewnętrzne tabele i woluminy. Są to tabele i wolumeny, których dostęp z usługi Azure Databricks jest zarządzany przez Unity Catalog, ale których cykl życia danych i układ plików są zarządzane przy użyciu Twojego dostawcy chmury i innych platform danych. Zazwyczaj używasz tabel zewnętrznych lub woluminów do rejestrowania dużych ilości istniejących danych w usłudze Azure Databricks lub jeśli potrzebujesz również dostępu do zapisu do danych przy użyciu narzędzi spoza usługi Azure Databricks.

Zarządzanie dostępem do magazynu w chmurze przy użyciu lokalizacji zewnętrznych

Zarówno zarządzane lokalizacje magazynu, jak i lokalizacje magazynu, gdzie przechowywane są zewnętrzne tabele i woluminy, używają zabezpieczalnych obiektów lokalizacji zewnętrznych do zarządzania dostępem z usługi Azure Databricks. Obiekty lokalizacji zewnętrznej odwołują się do ścieżki magazynu w chmurze i poświadczeń magazynu wymaganych do uzyskania do niego dostępu. Poświadczenia magazynowe są obiektami zabezpieczalnymi w ramach Unity Catalog, które rejestrują wymagane poświadczenia do uzyskania dostępu do określonej ścieżki magazynowej. Razem te zabezpieczenia zapewniają, że dostęp do magazynu jest kontrolowany i śledzony przez Unity Catalog.

Na poniższym diagramie przedstawia hierarchię systemu plików pojedynczego kontenera magazynu w chmurze z czterema lokalizacjami zewnętrznymi, które współużytkują jedno poświadczenie dostępu do magazynu.

Lokalizacje zewnętrzne

Aby uzyskać więcej informacji, zobacz Jak Unity Catalog zarządza dostępem do pamięci masowej w chmurze?.

Hierarchia lokalizacji magazynu zarządzanego

Poziom, na którym definiujesz zarządzany magazyn w Unity Catalogu, zależy od preferowanego modelu izolacji danych. Organizacja może wymagać przechowywania określonych typów danych na określonych kontach lub zasobnikach w dzierżawie chmury.

Katalog Unity umożliwia konfigurowanie zarządzanych lokalizacji magazynu na poziomie hurtowni danych, katalogu lub schematu w celu spełnienia takich wymagań.

Załóżmy na przykład, że twoja organizacja ma politykę zgodności firmy, która wymaga, aby dane produkcyjne dotyczące zasobów ludzkich były przechowywane w kontenerze abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net. W Unity Catalog można osiągnąć to wymaganie, określając lokalizację na poziomie katalogu, tworząc katalog o nazwie, na przykład hr_prod, i przypisując lokalizację abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog do tego katalogu. Oznacza to, że zarządzane tabele lub woluminy utworzone w wykazie hr_prod (na przykład przy użyciu CREATE TABLE hr_prod.default.table …) przechowują swoje dane w katalogu abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Możesz opcjonalnie podać lokalizacje dotyczące poziomu schematu w celu bardziej szczegółowego organizowania danych w hr_prod catalog.

Jeśli izolacja magazynu nie jest wymagana dla niektórych katalogów, możesz opcjonalnie ustawić lokalizację magazynu na poziomie magazynu metadanych. Ta lokalizacja służy jako domyślna lokalizacja dla zarządzanych tabel i woluminów w katalogach i schematach, które nie mają przypisanego magazynu. Zazwyczaj jednak usługa Databricks zaleca przypisanie oddzielnych zarządzanych lokalizacji magazynu dla każdego katalogu.

System ocenia hierarchię lokalizacji magazynu ze schematu do wykazu do magazynu metadanych.

Jeśli na przykład tabela myCatalog.mySchema.myTable jest tworzona w my-region-metastoreprogramie , lokalizacja magazynu tabel jest określana zgodnie z następującą regułą:

  1. Jeśli lokalizacja została podana dla mySchema, zostanie tam zapisana.
  2. Jeśli nie, a lokalizacja została podana na myCatalog, zostanie tam zapisana.
  3. Na koniec, jeśli w lokalizacji myCatalognie podano lokalizacji , zostanie ona zapisana w lokalizacji skojarzonej z elementem my-region-metastore.

Hierarchia przechowywania katalogu Unity

Aby uzyskać więcej informacji, zobacz Określanie zarządzanej miejsca przechowywania w Unity Catalog.

Izolacja środowiska przy użyciu powiązania katalogu obszarów roboczych

Domyślnie właściciele katalogu (i administratorzy magazynu metadanych, jeśli są zdefiniowani dla konta) mogą uczynić katalog dostępnym dla użytkowników w wielu dołączonych obszarach roboczych powiązanych z tym samym magazynem metadanych Unity Catalog.

Wymagania dotyczące organizacji i zgodności często określają, że niektóre dane, takie jak dane osobowe, są dostępne tylko w niektórych środowiskach. Możesz również zachować dane produkcyjne odizolowane od środowisk deweloperskich lub upewnić się, że niektóre zestawy danych i domeny nigdy nie są połączone razem.

W usłudze Azure Databricks obszar roboczy jest podstawowym środowiskiem przetwarzania danych, a katalogi są domeną danych podstawowych. Unity Catalog umożliwia administratorom magazynu metadanych, właścicielom katalogu oraz użytkownikom z uprawnieniami MANAGE przypisywanie, czyli „wiążenie”, katalogów z określonymi obszarami roboczymi. Te powiązania obsługujące środowisko umożliwiają zapewnienie, że tylko niektóre wykazy są dostępne w obszarze roboczym, niezależnie od określonych uprawnień do obiektów danych przyznanych użytkownikowi. Jeśli używasz obszarów roboczych do izolowania dostępu do danych użytkowników, możesz jednak ograniczyć dostęp katalogu do określonych obszarów roboczych na koncie, aby upewnić się, że niektóre rodzaje danych są przetwarzane tylko w tych obszarach roboczych. Możesz chcieć oddzielić obszary robocze produkcyjne i programistyczne, na przykład lub oddzielny obszar roboczy do przetwarzania danych osobowych. Jest to nazywane powiązaniem katalogu obszarów roboczych. Zobacz Ograniczanie dostępu katalogu do określonych obszarów roboczych.

Wykazy aparatu Unity

Uwaga

W celu zwiększenia izolacji danych można również powiązać dostęp do magazynu w chmurze i dostęp usługi w chmurze do określonych obszarów roboczych. Zobacz (Opcjonalnie) Przypisywanie poświadczeń magazynu do określonych obszarów roboczych, (opcjonalnie) Przypisywanie lokalizacji zewnętrznej do określonych obszarów roboczych i (opcjonalnie) Przypisywanie poświadczeń usługi do określonych obszarów roboczych.

Jak skonfigurować Unity Catalog dla mojej organizacji?

Aby można było korzystać z Unity Catalog, obszar roboczy usługi Azure Databricks musi być włączony do Unity Catalog, co oznacza, że obszar roboczy jest dołączony do metastore Unity Catalog.

Jak obszar roboczy jest powiązany z magazynem metadanych? Zależy to od konta i obszaru roboczego:

  • Zazwyczaj podczas tworzenia obszaru roboczego usługi Azure Databricks w regionie po raz pierwszy magazyn metadanych jest tworzony automatycznie i dołączany do obszaru roboczego.
  • W przypadku niektórych starszych kont administrator konta musi utworzyć magazyn metadanych i przypisać obszary robocze w tym regionie do magazynu metadanych. Aby uzyskać instrukcje, zobacz Tworzenie katalogu Unity.
  • Jeśli konto ma już przypisany magazyn metadanych dla regionu, administrator konta może zdecydować, czy automatycznie dołączyć magazyn metadanych do wszystkich nowych obszarów roboczych w tym regionie. Zobacz Włączanie automatycznego przypisywanie magazynu metadanych do nowych obszarów roboczych.

Czy obszar roboczy został włączony automatycznie dla Unity Catalog, czy nie, należy również wykonać następujące kroki, aby rozpocząć pracę z Unity Catalog:

  • Utwórz wykazy i schematy, aby zawierały obiekty bazy danych, takie jak tabele i woluminy.
  • Utwórz zarządzone lokalizacje przechowywania do przechowywania zarządzanych tabel i woluminów w tych schematach i katalogach.
  • Udziel użytkownikowi dostępu do katalogów, schematów i obiektów bazy danych.

Obszary robocze, które automatycznie są włączane dla Unity Catalog, tworzą wykaz obszarów roboczych z obszernymi uprawnieniami przyznanymi wszystkim użytkownikom obszaru roboczego. Ten katalog jest wygodnym punktem wyjścia do wypróbowania Unity Catalog.

Aby uzyskać szczegółowe instrukcje dotyczące konfiguracji, zobacz Rozpoczęcie pracy z Unity Catalog.

Podniesienie wersji istniejącego obszaru roboczego do Unity Catalog

Aby dowiedzieć się, jak uaktualnić obszar roboczy bez Wykazu Unity, zobacz Uaktualnianie obszarów roboczych usługi Azure Databricks do Wykazu Unity.

Wymagania i ograniczenia katalogu Unity

Unity Catalog wymaga określonych typów obliczeń i formatów plików, opisanych poniżej. Poniżej wymieniono również niektóre funkcje usługi Azure Databricks, które nie są w pełni obsługiwane w katalogu Unity we wszystkich wersjach Databricks Runtime.

Obsługa regionów

Wszystkie regiony obsługują Unity Catalog. Aby uzyskać szczegółowe informacje, zobacz Regiony usługi Azure Databricks.

Wymagania dotyczące obliczeń

Unity Catalog jest obsługiwany na klastrach z uruchomionym Databricks Runtime 11.3 LTS lub nowszym. Katalog Unity jest domyślnie obsługiwany we wszystkich wersjach obliczeniowych SQL Warehouse.

Klastry działające we wcześniejszych wersjach Databricks Runtime nie zapewniają obsługi wszystkich funkcji i możliwości Unity Catalog w wersji GA.

Aby uzyskać dostęp do danych w Unity Catalog, klastry muszą być skonfigurowane z odpowiednim trybem dostępu. Katalog aparatu Unity jest domyślnie bezpieczny. Jeśli klaster nie jest skonfigurowany w standardowym lub dedykowanym trybie dostępu, nie może uzyskać dostępu do danych w Unity Catalog. Zobacz Tryby dostępu.

Aby uzyskać szczegółowe informacje o zmianach w funkcjonalności Unity Catalog w każdej wersji Databricks Runtime, zobacz uwagi o wersji.

Ograniczenia dla Unity Catalog różnią się w zależności od trybu dostępu i wersji Databricks Runtime. Zobacz Ograniczenia trybu dostępu obliczeniowego dla Unity Catalogu.

Obsługa formatu pliku

Katalog Unity obsługuje następujące formaty tabel.

Ograniczenia

Katalog Unity ma następujące ograniczenia. Niektóre z nich są specyficzne dla starszych wersji środowiska Databricks Runtime i trybów dostępu obliczeniowego.

Obciążenia strukturalnego przesyłania strumieniowego mają dodatkowe ograniczenia, w zależności od wersji Databricks Runtime i trybu dostępu. Zobacz Ograniczenia trybu dostępu obliczeniowego dla Unity Catalogu.

Usługa Databricks udostępnia nowe funkcje, które regularnie zmniejszają tę listę.

  • Nie można używać grup utworzonych wcześniej w obszarze roboczym (czyli grupach na poziomie obszaru roboczego) w instrukcjach wykazu GRANT aparatu Unity. Ma to na celu zapewnienie jednolitego obrazu grup, które mogą rozciągać się na różne obszary robocze. Aby użyć grup w GRANinstrukcjach T, utwórz grupy na poziomie konta i zaktualizuj dowolną automatyzację zarządzania podmiotami zabezpieczeń lub grup (takimi jak łączniki SCIM, Okta i Microsoft Entra ID i Terraform), aby odwoływać się do punktów końcowych konta zamiast punktów końcowych obszaru roboczego. Zobacz Źródła grup.
  • Obciążenia w języku R nie obsługują używania widoków dynamicznych na poziomie wiersza lub na poziomie kolumny w obliczeniach z uruchomionym środowiskiem Databricks Runtime 15.3 lub starszym.

Użyj dedykowanego zasobu obliczeniowego z uruchomionym środowiskiem Databricks Runtime 15.4 LTS lub nowszym dla obciążeń w języku R, które wysyłają zapytania o dynamiczne widoki. Takie obciążenia wymagają również obszaru roboczego, który jest włączony dla bezserwerowych obliczeń. Aby uzyskać szczegółowe informacje, zobacz Szczegółowa kontrola dostępu w dedykowanych obliczeniach.

  • Płytkie klony nie są obsługiwane w wykazie aparatu Unity na obliczeniach z uruchomionym środowiskiem Databricks Runtime 12.2 LTS i nowszym. Za pomocą płytkich klonów można tworzyć tabele zarządzane w środowisku Databricks Runtime 13.3 LTS lub nowszym. Nie można ich używać do tworzenia tabel zewnętrznych, niezależnie od wersji środowiska Databricks Runtime. Zobacz Płytkie klonowanie tabel Unity Catalog.

  • Partycjonowanie nie jest obsługiwane w przypadku tabel Unity Catalog. Jeśli wykonasz polecenia, które próbują utworzyć tabelę zgrupowaną w Unity Catalog, zostanie zgłoszony wyjątek.

  • Zapisywanie w tej samej lokalizacji lub tabeli usługi Delta Lake z obszarów roboczych w wielu regionach może prowadzić do nieprzewidywalnej wydajności, jeśli niektóre klastry uzyskują dostęp do Unity Catalog, a inne nie.

  • Manipulowanie partycjami dla tabel zewnętrznych przy użyciu poleceń, takich jak ALTER TABLE ADD PARTITION wymaga włączenia rejestrowania metadanych partycji. Zobacz Odnajdywanie partycji dla tabel zewnętrznych.

  • W przypadku używania trybu zastępowania dla tabel, które nie są w formacie delty, użytkownik musi mieć uprawnienia CREATE TABLE w schemacie nadrzędnym i musi być właścicielem istniejącego obiektu LUB mieć uprawnienie MODIFY w obiekcie.

  • Wersje 12.2 LTS i wcześniejsze środowiska Databricks Runtime nie obsługują funkcji zdefiniowanych przez użytkownika w języku Python. Obejmuje to funkcje agregacyjne zdefiniowane przez użytkownika (UDAFs), funkcje tabelaryczne zdefiniowane przez użytkownika (UDTFs) oraz biblioteki Pandas na platformie Spark (applyInPandas i mapInPandas). Skalarne funkcje zdefiniowane przez użytkownika w języku Python są obsługiwane w Databricks Runtime w wersji 13.3 LTS i wyższej.

  • Funkcje zdefiniowane przez użytkownika języka Scala nie są obsługiwane w środowisku Databricks Runtime 14.1 i nowszym w środowisku obliczeniowym ze standardowym trybem dostępu. Skalarne funkcje użytkownika w Scala są obsługiwane na platformie obliczeniowej Databricks Runtime 14.2 i wyższych w standardowym trybie dostępu.

  • Pule wątków w języku Scala w wariancie standardowym nie są obsługiwane. Zamiast tego użyj specjalnych pul wątków w org.apache.spark.util.ThreadUtils, na przykład org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. Jednak następujące pule wątków w ThreadUtils nie są obsługiwane: ThreadUtils.newForkJoinPool oraz pula wątków w ScheduledExecutorService.

  • Logowanie audytów jest obsługiwane tylko dla zdarzeń Unity Catalog na poziomie obszaru roboczego. Zdarzenia, które odbywają się na poziomie konta bez odwołania do obszaru roboczego, takiego jak tworzenie magazynu metadanych, nie są rejestrowane.

Modele zarejestrowane w Unity Catalog mają dodatkowe ograniczenia. Zobacz Ograniczenia.

Przydziały zasobów

Unity Catalog wymusza limity przydziału zasobów dla wszystkich zabezpieczanych obiektów. Te limity przydziału są wymienione w temacie Limity zasobów. Jeśli spodziewasz się przekroczyć te limity zasobów, skontaktuj się z zespołem konta usługi Azure Databricks.

Można monitorować zużycie limitu przydziałów za pomocą zasobów API Unity Catalog. Zobacz Monitorowanie użycia przydziałów zasobów w Unity Catalog.

Dodatkowe zasoby