Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In dit artikel maakt u kennis met Unity Catalog, een geïntegreerde governanceoplossing voor gegevens en AI-assets in Azure Databricks. Hierin worden de belangrijkste concepten uitgelegd en krijgt u een overzicht van het gebruik van Unity Catalog om gegevens te beheren.
Notitie
Unity Catalog is ook beschikbaar als een opensource-implementatie. Zie de aankondigingsblog en de openbare GitHub-opslagplaats voor Unity Catalog.
Overzicht van Unity Catalog
Unity Catalog is een gecentraliseerde gegevenscatalogus die toegangsbeheer, controle, herkomst, kwaliteitscontrole en mogelijkheden voor gegevensdetectie biedt in Azure Databricks-werkruimten.
Belangrijke functies van Unity Catalog zijn:
- Eenmaal definiëren, veilig overal: Unity Catalog biedt één locatie voor het beheren van beleidsregels voor gegevenstoegang die van toepassing zijn op alle werkruimten in een regio.
- Beveiligingsmodel dat compatibel is met standaarden: het beveiligingsmodel van Unity Catalog is gebaseerd op standaard ANSI SQL en stelt beheerders in staat om machtigingen te verlenen in hun bestaande Data Lake met behulp van vertrouwde syntaxis.
- Ingebouwde controle en herkomst: Unity Catalog legt automatisch auditlogboeken op gebruikersniveau vast waarmee toegang tot uw gegevens wordt vastgelegd. Unity Catalog legt ook herkomstgegevens vast die bijhouden hoe gegevensassets in alle talen worden gemaakt en gebruikt.
- Gegevensdetectie: Met Unity Catalog kunt u gegevensassets taggen en documenteren en een zoekinterface bieden waarmee gegevensgebruikers gegevens kunnen vinden.
- Systeemtabellen: Met Unity Catalog kunt u eenvoudig de operationele gegevens van uw account openen en er query's op uitvoeren, zoals auditlogboeken, factureerbare gebruik en herkomst.
Metastore
De metastore is de container op het hoogste niveau voor metagegevens in Unity Catalog. Het registreert metagegevens over gegevens en AI-assets en de machtigingen die toegang tot deze assets beheren. Voor een werkruimte die Unity Catalog kan gebruiken, moet er een Unity Catalog-metastore zijn gekoppeld. U moet één metastore hebben voor elke regio waarin u werkruimten hebt.
In tegenstelling tot Hive-metastore is de Unity Catalog-metastore geen servicegrens: deze wordt uitgevoerd in een omgeving met meerdere tenants en vertegenwoordigt een logische grens voor de scheiding van gegevens per regio voor een bepaald Azure Databricks-account.
Het Unity Catalog-objectmodel
In een Unity Catalog-metastore bestaat de databaseobjecthiërarchie op drie niveaus uit catalogi die schema's bevatten, die op hun beurt gegevens- en AI-objecten bevatten, zoals tabellen en modellen. Deze hiërarchie wordt weergegeven als een naamruimte met drie niveaus (catalog.schema.table-etc
) wanneer u verwijst naar tabellen, weergaven, volumes, modellen en functies.
Niveau één:
- Catalogi worden gebruikt om uw gegevensassets te organiseren en worden meestal gebruikt als het hoogste niveau in uw gegevensisolatieschema. Catalogi spiegelen vaak organisatie-eenheden of levenscyclusfasen van softwareontwikkeling. Bekijk wat zijn catalogi in Azure Databricks?
- Niet-gegevens beveiligbare objecten, zoals opslagreferenties en externe locaties, worden gebruikt voor het beheren van uw gegevensbeheermodel in Unity Catalog. Deze wonen ook rechtstreeks onder de metastore. Ze worden uitgebreid beschreven in beveiligbare objecten die door Unity Catalog worden gebruikt om de toegang tot externe gegevensbronnen te beheren.
Niveau 2:
- Schema's (ook wel databases genoemd) bevatten tabellen, weergaven, volumes, AI-modellen en functies. Schema's organiseren gegevens en AI-assets in logische categorieën die gedetailleerder zijn dan catalogi. Normaal gesproken vertegenwoordigt een schema één gebruikssituatie, project of teamsandbox. Zie Wat zijn schema's in Azure Databricks?
Niveau drie:
- Tabellen zijn verzamelingen gegevens die zijn geordend op rijen en kolommen. Tabellen kunnen beheerd worden, waarbij Unity Catalog de volledige levenscyclus van de tabel beheert, of extern, waarbij Unity Catalog de toegang tot de gegevens beheert vanuit Azure Databricks, maar niet de toegang tot de gegevens in cloudopslag voor andere clients. Zie Inleiding tot Azure Databricks-tabellen en Beheerde versus externe tabellen en volumes.
- Weergaven zijn opgeslagen zoekopdrachten op een of meer tabellen. Zie Wat is een weergave?
- Volumes vertegenwoordigen logische volumes van gegevens in de opslag van cloudobjecten. U kunt volumes gebruiken voor het opslaan, ordenen en openen van bestanden in elke indeling, waaronder gestructureerde, semi-gestructureerde en ongestructureerde gegevens. Ze worden meestal gebruikt voor niet-tabellaire gegevens. Volumes kunnen worden beheerd, waarbij Unity Catalog de volledige levenscyclus en indeling van de gegevens in de opslag beheert, of extern, waarbij Unity Catalog de toegang tot de gegevens vanuit Azure Databricks beheert, maar geen toegang beheert tot de gegevens in cloudopslag voor andere clients. Zie Wat zijn volumes in de Unity Catalog? en Beheerde versus externe tabellen en volumes.
- Functies zijn eenheden van opgeslagen logica die een scalaire waarde of set rijen retourneren. Zie door de gebruiker gedefinieerde functies (UDF's) in Unity Catalog.
- Modellen zijn AI-modellen die zijn verpakt met MLflow en zijn geregistreerd in Unity Catalog als functies. Zie De levenscyclus van het model beheren in Unity Catalog.
Beveiligbare objecten die door Unity Catalog worden gebruikt om de toegang tot externe gegevensbronnen te beheren
Naast de databaseobjecten en AI-assets die zijn opgenomen in schema's, gebruikt Unity Catalog ook de volgende beveiligbare objecten om de toegang tot cloudopslag en andere externe gegevensbronnen en -services te beheren:
- Opslagreferenties, die een langetermijncloudreferentie bevatten die toegang biedt tot cloudopslag. Zie Een opslagreferentie maken om verbinding te maken met Azure Data Lake Storage.
- Externe locaties, die verwijzen naar zowel een cloudopslagpad als de opslagreferentie die nodig is voor toegang tot het pad. Externe locaties kunnen worden gebruikt om externe tabellen te maken of om een beheerde opslaglocatie toe te wijzen voor beheerde tabellen en volumes. Zie Een externe locatie maken om cloudopslag te verbinden met Azure Databricks, cloudopslag en gegevensisolatie en geef een beheerde opslaglocatie op in Unity Catalog.
- Verbindingen, die referenties vertegenwoordigen die alleen-lezentoegang geven tot een externe database in een databasesysteem zoals MySQL met behulp van Lakehouse Federation. Zie Wat is Lakehouse Federation?
- Servicereferenties, waarmee een langetermijncloudreferentie wordt ingekapseld die toegang biedt tot een externe service. Zie Servicereferenties maken.
Beveiligbare objecten die door Unity Catalog worden gebruikt om de toegang tot gedeelde assets te beheren
Unity Catalog maakt gebruik van de volgende beveiligbare objecten voor het beheren van gegevens en AI-assetdeling tussen metastores of organisatiegrenzen:
- Schone ruimten, die een door Databricks beheerde omgeving vertegenwoordigen, waar meerdere deelnemers kunnen samenwerken aan projecten zonder onderliggende gegevens met elkaar te delen. Bekijk wat is Azure Databricks Clean Rooms?
- Shares zijn Delta Sharing-objecten die een verzamelingen van gegevens en AI-assets in alleen-lezen modus vertegenwoordigen die een gegevensprovider deelt met één of meer ontvangers.
- Ontvangers, die Delta Sharing-objecten zijn die een entiteit vertegenwoordigen die shares van een gegevensprovider ontvangt.
- Providers, die Delta Sharing-objecten zijn die een entiteit vertegenwoordigen die gegevens deelt met een ontvanger.
Zie Wat is Delta Sharing?voor meer informatie over de beveiligbare objecten voor Delta Delen.
Beheerdersrollen
De volgende Beheerdersrollen van Azure Databricks hebben standaard veel Unity Catalog-bevoegdheden:
- Accountbeheerders: kunnen metastores maken, werkruimten koppelen aan metastores, gebruikers toevoegen en bevoegdheden toewijzen voor metastores.
- Werkruimtebeheerders: kunnen gebruikers toevoegen aan een werkruimte en veel werkruimtespecifieke objecten beheren, zoals taken en notebooks. Afhankelijk van de werkruimte kunnen werkruimtebeheerders ook veel bevoegdheden hebben voor de metastore die aan de werkruimte is gekoppeld.
- Metastore-beheerders: deze optionele rol is vereist als u tabel- en volumeopslag wilt beheren op metastoreniveau. Het is ook handig als u gegevens centraal wilt beheren in meerdere werkruimten in een regio.
Zie Beheerdersbevoegdheden in Unity Catalog voor meer informatie.
Toegang verlenen en intrekken tot beveiligbare objecten
Bevoegde gebruikers kunnen op elk niveau in de hiërarchie toegang verlenen en intrekken tot beveiligbare objecten, met inbegrip van de metastore zelf. Toegang tot een object verleent impliciet dezelfde toegang tot alle onderliggende objecten, tenzij de toegang wordt ingetrokken.
U kunt typische ANSI SQL-opdrachten gebruiken om toegang tot objecten in Unity Catalog te verlenen en in te trekken. Voorbeeld:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
U kunt ook Catalog Explorer, de Databricks CLI en REST API's gebruiken om objectmachtigingen te beheren.
Metastore-beheerders, eigenaren van een object en gebruikers met een MANAGE privilege
object kunnen toegang verlenen en intrekken. Zie Bevoegdheden beheren in Unity Catalog voor meer informatie over het beheren van bevoegdheden in Unity Catalog.
Standaardtoegang tot databaseobjecten in Unity Catalog
Unity Catalog werkt op basis van het principe van minimale bevoegdheden, waarbij gebruikers de minimale toegang hebben die ze nodig hebben om hun vereiste taken uit te voeren. Wanneer een werkruimte wordt gemaakt, hebben niet-beheerders alleen toegang tot de automatisch ingerichte werkruimtecatalogus, waardoor deze catalogus een handige plek is voor gebruikers om het proces voor het maken en openen van databaseobjecten in Unity Catalog uit te proberen. Bekijk de bevoegdheden van de werkruimtecatalogus.
Werken met databaseobjecten in Unity Catalog
Werken met databaseobjecten in Unity Catalog is vergelijkbaar met het werken met databaseobjecten die zijn geregistreerd in een Hive-metastore, met uitzondering dat een Hive-metastore geen catalogi bevat in de objectnaamruimte. U kunt vertrouwde ANSI-syntaxis gebruiken om databaseobjecten te maken, databaseobjecten te beheren, machtigingen te beheren en met gegevens te werken in Unity Catalog. U kunt ook databaseobjecten maken, databaseobjecten beheren en machtigingen voor databaseobjecten beheren met behulp van de gebruikersinterface van Catalog Explorer.
Zie Databaseobjecten in Azure Databricks voor meer informatie.
Beheerde versus externe tabellen en volumes
Tabellen en volumes kunnen worden beheerd of extern zijn.
- Beheerde tabellen worden volledig beheerd door Unity Catalog, wat betekent dat Unity Catalog zowel de governance als de onderliggende gegevensbestanden voor elke beheerde tabel beheert. Beheerde tabellen worden opgeslagen op een door Unity Catalog beheerde locatie in uw cloudopslag. Beheerde tabellen gebruiken altijd de Delta Lake-indeling. U kunt beheerde tabellen opslaan op de niveaus metastore, catalogus of schema.
- Externe tabellen zijn tabellen waarvan de toegang vanuit Azure Databricks wordt beheerd door Unity Catalog, maar waarvan de levenscyclus en bestandsindeling worden beheerd met behulp van uw cloudprovider en andere gegevensplatforms. Normaal gesproken gebruikt u externe tabellen om grote hoeveelheden bestaande gegevens in Azure Databricks te registreren, of als u ook schrijftoegang tot de gegevens nodig hebt met behulp van hulpprogramma's buiten Azure Databricks. Externe tabellen worden ondersteund in meerdere gegevensindelingen. Zodra een externe tabel is geregistreerd in een Unity Catalog-metastore, kunt u Azure Databricks-toegang beheren en controleren--- en ermee werken--- op dezelfde wijze als met beheerde tabellen.
- Beheerde volumes worden volledig beheerd door Unity Catalog, wat betekent dat Unity Catalog de toegang tot de opslaglocatie van het volume in uw cloudprovideraccount beheert. Wanneer u een beheerd volume maakt, wordt het automatisch opgeslagen in de beheerde opslaglocatie die is toegewezen aan het schema dat het bevat.
- Externe volumes vertegenwoordigen bestaande gegevens in opslaglocaties die buiten Azure Databricks worden beheerd, maar zijn geregistreerd in Unity Catalog voor het beheren en controleren van toegang vanuit Azure Databricks. Wanneer u een extern volume maakt in Azure Databricks, geeft u de locatie op. Deze moet zich bevinden op een pad dat is gedefinieerd in een externe locatie van de Unity Catalog.
Databricks raadt beheerde tabellen en volumes aan voor de meeste gebruiksvoorbeelden, omdat u hiermee volledig kunt profiteren van governancemogelijkheden en prestatieoptimalisaties van Unity Catalog. Voor informatie over typische gebruiksvoorbeelden voor externe tabellen en volumes, zie Beheerde en externe tabellen en beheerde en externe volumes.
Zie ook:
- Unity Catalog-beheerde tabellen in Azure Databricks voor Delta Lake en Apache Iceberg
- Werken met externe tabellen
- beheerde versus externe volumes.
Cloudopslag en gegevensisolatie
Unity Catalog maakt gebruik van cloudopslag op twee primaire manieren:
- Beheerde opslag: standaardlocaties voor beheerde tabellen en beheerde volumes (ongestructureerde, niet-tabellaire gegevens) die u in Azure Databricks maakt. Deze beheerde opslaglocaties kunnen worden gedefinieerd op metastore-, catalogus- of schemaniveau. U maakt beheerde opslaglocaties in uw cloudprovider, maar de levenscyclus ervan wordt volledig beheerd door Unity Catalog.
- Opslaglocaties waar externe tabellen en volumes worden opgeslagen. Dit zijn tabellen en volumes waarvan de toegang vanuit Azure Databricks wordt beheerd door Unity Catalog, maar waarvan de levenscyclus en bestandsindeling worden beheerd met behulp van uw cloudprovider en andere gegevensplatforms. Normaal gesproken gebruikt u externe tabellen of volumes om grote hoeveelheden bestaande gegevens in Azure Databricks te registreren, of als u ook schrijftoegang tot de gegevens nodig hebt met behulp van hulpprogramma's buiten Azure Databricks.
Toegang tot cloudopslag beheren met behulp van externe locaties
Zowel beheerde opslaglocaties als opslaglocaties waar externe tabellen en volumes worden opgeslagen, maken gebruik van beveiligbare objecten voor externe locatie om de toegang vanuit Azure Databricks te beheren. Externe locatieobjecten verwijzen naar een cloudopslagpad en de opslagreferenties die nodig zijn om er toegang toe te krijgen. Opslagreferenties zijn zelf beveiligbare objecten van Unity Catalog die de referenties registreren die nodig zijn voor toegang tot een bepaald opslagpad. Samen zorgen deze beveiligbare apparaten ervoor dat de toegang tot opslag wordt beheerd en bijgehouden door Unity Catalog.
Het onderstaande diagram vertegenwoordigt de bestandssysteemhiërarchie van één cloudopslagcontainer, met vier externe locaties die één opslagreferentie delen.
Zie Hoe bepaalt Unity Catalog de toegang tot cloudopslag voor meer informatie.
Hiërarchie van beheerde opslaglocatie
Het niveau waarop u beheerde opslag in Unity Catalog definieert, is afhankelijk van het gegevensisolatiemodel van uw voorkeur. Uw organisatie kan vereisen dat bepaalde typen gegevens worden opgeslagen in specifieke accounts of buckets in uw cloudtenant.
Unity Catalog biedt u de mogelijkheid om beheerde opslaglocaties te configureren op metastore-, catalogus- of schemaniveau om aan dergelijke vereisten te voldoen.
Laten we aannemen dat uw organisatie een bedrijfsnalevingsbeleid heeft dat vereist dat productiegegevens met betrekking tot human resources in de container abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net worden opgeslagen. In Unity Catalog kunt u deze vereiste bereiken door een locatie in te stellen op catalogusniveau, een catalogus te maken met de naam bijvoorbeeld hr_prod
en de locatie toe te wijzen abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Dit betekent dat beheerde tabellen of volumes die zijn gemaakt in de hr_prod
-catalogus (bijvoorbeeld met behulp van CREATE TABLE hr_prod.default.table …
) hun gegevens opslaan in abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. U kunt er desgewenst voor kiezen om locaties op schemaniveau op te geven om gegevens op hr_prod catalog
een gedetailleerder niveau te ordenen.
Als opslagisolatie niet vereist is voor sommige catalogi, kunt u desgewenst een opslaglocatie instellen op metastoreniveau. Deze locatie fungeert als een standaardlocatie voor beheerde tabellen en volumes in catalogi en schema's waaraan geen opslag is toegewezen. Databricks raadt echter aan afzonderlijke beheerde opslaglocaties toe te wijzen voor elke catalogus.
Het systeem evalueert de hiërarchie van opslaglocaties van schema naar catalogus naar metastore.
Als er bijvoorbeeld een tabel wordt gemaakt, myCatalog.mySchema.myTable
wordt de opslaglocatie van de tabel my-region-metastore
bepaald volgens de volgende regel:
- Als er een locatie is opgegeven
mySchema
, wordt deze daar opgeslagen. - Als dat niet het probleem is en er een locatie is opgegeven
myCatalog
, wordt deze daar opgeslagen. - Als er ten slotte geen locatie is opgegeven
myCatalog
, wordt deze opgeslagen op de locatie die is gekoppeld aan demy-region-metastore
.
Zie Een beheerde opslaglocatie opgeven in Unity Catalog voor meer informatie.
Omgevingsisolatie met behulp van werkruimtecatalogusbinding
Cataloguseigenaren (en metastore-beheerders, als ze zijn gedefinieerd voor het account) kunnen standaard een catalogus toegankelijk maken voor gebruikers in meerdere werkruimten die zijn gekoppeld aan dezelfde Unity Catalog-metastore.
Organisatie- en nalevingsvereisten geven vaak aan dat u bepaalde gegevens, zoals persoonlijke gegevens, alleen toegankelijk houdt in bepaalde omgevingen. U kunt ook productiegegevens geïsoleerd houden van ontwikkelomgevingen of ervoor zorgen dat bepaalde gegevenssets en domeinen nooit aan elkaar worden gekoppeld.
In Azure Databricks is de werkruimte de primaire omgeving voor gegevensverwerking en zijn catalogi het primaire gegevensdomein. Met Unity Catalog kunnen metastore-beheerders, cataloguseigenaren en gebruikers met de MANAGE
machtiging toewijzen, of 'binden', catalogi toewijzen aan specifieke werkruimten. Deze omgevingsbewuste bindingen bieden u de mogelijkheid om ervoor te zorgen dat alleen bepaalde catalogi beschikbaar zijn in een werkruimte, ongeacht de specifieke bevoegdheden voor gegevensobjecten die aan een gebruiker zijn verleend. Als u werkruimten gebruikt om de toegang tot gebruikersgegevens te isoleren, kunt u de catalogustoegang tot specifieke werkruimten in uw account beperken om ervoor te zorgen dat bepaalde soorten gegevens alleen in die werkruimten worden verwerkt. Mogelijk wilt u afzonderlijke productie- en ontwikkelingswerkruimten, bijvoorbeeld een afzonderlijke werkruimte voor het verwerken van persoonlijke gegevens. Dit staat bekend als werkruimtecatalogus-binding. Zie Catalogustoegang beperken tot specifieke werkruimten.
Notitie
Voor meer gegevensisolatie kunt u ook toegang tot cloudopslag en cloudservicetoegang tot specifieke werkruimten binden. Zie (Optioneel) Wijs een opslagreferentie toe aan specifieke werkruimten, (optioneel) Wijs een externe locatie toe aan specifieke werkruimten en (optioneel) Wijs een servicereferentie toe aan specifieke werkruimten.
Hoe kan ik Unity Catalog instellen voor mijn organisatie?
Als u Unity Catalog wilt gebruiken, moet uw Azure Databricks-werkruimte zijn ingeschakeld voor Unity Catalog. Dit betekent dat de werkruimte is gekoppeld aan een Unity Catalog-metastore.
Hoe wordt een werkruimte gekoppeld aan een metastore? Dit is afhankelijk van het account en de werkruimte:
- Wanneer u voor het eerst een Azure Databricks-werkruimte in een regio maakt, wordt de metastore automatisch gemaakt en gekoppeld aan de werkruimte.
- Voor sommige oudere accounts moet een accountbeheerder de metastore maken en de werkruimten in die regio toewijzen aan de metastore. Zie Een Unity Catalog-metastore maken voor instructies.
- Als een account al een metastore heeft toegewezen voor een regio, kan een accountbeheerder beslissen of de metastore automatisch moet worden gekoppeld aan alle nieuwe werkruimten in die regio. Zie Een metastore inschakelen zodat deze automatisch wordt toegewezen aan nieuwe werkruimten.
Of uw werkruimte al dan niet automatisch is ingeschakeld voor Unity Catalog, de volgende stappen zijn ook vereist om aan de slag te gaan met Unity Catalog:
- Maak catalogi en schema's die databaseobjecten, zoals tabellen en volumes, bevatten.
- Maak beheerde opslaglocaties voor het opslaan van de beheerde tabellen en volumes in deze catalogi en schema's.
- Gebruikers toegang verlenen tot catalogi, schema's en databaseobjecten.
Werkruimten die automatisch zijn ingeschakeld voor Unity Catalog, richten een werkruimtecatalogus in met brede bevoegdheden die zijn verleend aan alle werkruimtegebruikers. Deze catalogus is een handig startpunt voor het uitproberen van Unity Catalog.
Zie Aan de slag met Unity Catalog voor gedetailleerde installatie-instructies.
Een bestaande werkruimte upgraden naar Unity Catalog
Zie Een Azure Databricks-werkruimte upgraden naar Unity Catalog voor meer informatie over het upgraden van een niet-Unity Catalog-werkruimte naar Unity Catalog.
Vereisten en beperkingen voor Unity Catalog
Unity Catalog vereist specifieke typen reken- en bestandsindelingen, zoals hieronder wordt beschreven. Hieronder vindt u ook enkele Azure Databricks-functies die niet volledig worden ondersteund in Unity Catalog op alle Databricks Runtime-versies.
Regioondersteuning
Alle regio's ondersteunen Unity Catalog. Zie Azure Databricks-regio's voor meer informatie.
Berekeningsvereisten
Unity Catalog wordt ondersteund op clusters waarop Databricks Runtime 11.3 LTS of hoger wordt uitgevoerd. Unity Catalog wordt standaard ondersteund voor alle SQL Warehouse-rekenversies.
Clusters die worden uitgevoerd in eerdere versies van Databricks Runtime bieden geen ondersteuning voor alle ALGEMENE functies en functionaliteit van Unity Catalog.
Voor toegang tot gegevens in Unity Catalog moeten clusters worden geconfigureerd met de juiste toegangsmodus. Unity Catalog is standaard beveiligd. Als een cluster niet is geconfigureerd met de standaard- of toegewezen toegangsmodus, heeft het cluster geen toegang tot gegevens in Unity Catalog. Zie Toegangsmodi.
Zie de releaseopmerkingen voor gedetailleerde informatie over wijzigingen in de functionaliteit van Unity Catalog in elke Databricks Runtime-versie.
Beperkingen voor Unity Catalog variëren per toegangsmodus en Databricks Runtime-versie. Zie De beperkingen van de compute-toegangsmodus voor Unity Catalog.
Ondersteuning voor bestandsindelingen
Unity Catalog ondersteunt de volgende tabelindelingen:
-
Beheerde tabellen moeten de
delta
tabelindeling gebruiken. -
Externe tabellen kunnen gebruikmaken van
delta
,CSV
,JSON
,avro
, ,parquet
, , ofORC
text
.
Beperkingen
Unity Catalog heeft de volgende beperkingen. Sommige hiervan zijn specifiek voor oudere Databricks Runtime-versies en compute-toegangsmodi.
Workloads voor gestructureerd streamen hebben extra beperkingen, afhankelijk van Databricks Runtime en de toegangsmodus. Zie De beperkingen van de compute-toegangsmodus voor Unity Catalog.
Databricks brengt nieuwe functionaliteit uit die deze lijst regelmatig verkleint.
- Groepen die eerder in een werkruimte zijn aangemaakt (dat wil zeggen groepen op niveau van de werkruimte) kunnen niet worden gebruikt in Unity Catalog-instructies
GRANT
. Dit is om een consistente weergave te garanderen van groepen die over meerdere werkruimten kunnen beschikken. Als u groepen inGRAN
T-instructies wilt gebruiken, maakt u uw groepen op accountniveau en werkt u automatisering bij voor principal- of groepsbeheer (zoals SCIM-, Okta- en Microsoft Entra ID-connectors en Terraform) om te verwijzen naar accounteindpunten in plaats van werkruimte-eindpunten. Zie Groepsbronnen. - Workloads in R bieden geen ondersteuning voor het gebruik van dynamische weergaven voor beveiliging op rij- of kolomniveau voor berekeningen met Databricks Runtime 15.3 en lager.
Gebruik een toegewezen rekenresource met Databricks Runtime 15.4 LTS of hoger voor workloads in R die dynamische weergaven uitvoeren. Voor dergelijke workloads is ook een werkruimte vereist die is ingeschakeld voor serverloze berekeningen. Zie Gedetailleerd toegangsbeheer voor toegewezen berekeningen voor meer informatie.
Ondiepe klonen worden in Unity Catalog niet ondersteund op computersystemen waarop Databricks Runtime 12.2 LTS en oudere versies worden uitgevoerd. U kunt ondiepe klonen gebruiken om beheerde tabellen te maken in Databricks Runtime 13.3 LTS en hoger. U kunt ze niet gebruiken om externe tabellen te maken, ongeacht de Databricks Runtime-versie. Zie Shallow-clone voor Unity Catalog-tabellen.
Bucketing wordt niet ondersteund voor Unity Catalog-tabellen. Als u opdrachten uitvoert die proberen een bucketed tabel te maken in Unity Catalog, resulteert dat in een uitzondering.
Schrijven naar hetzelfde pad of Delta Lake-tabel vanuit werkruimten in meerdere regio's kan leiden tot onbetrouwbare prestaties als sommige clusters toegang hebben tot Unity Catalog en andere niet.
Het bewerken van partities voor externe tabellen met behulp van opdrachten zoals
ALTER TABLE ADD PARTITION
vereist dat logboekregistratie van partitiemetagegevens is ingeschakeld. Zie Partitiedetectie voor externe tabellen.Wanneer u de overschrijfmodus gebruikt voor tabellen die niet in Delta-indeling staan, moet de gebruiker de CREATE TABLE bevoegdheid hebben voor het bovenliggende schema en moet deze de eigenaar zijn van het bestaande object OF de bevoegdheid WIJZIGEN hebben voor het object.
Python UDF's worden niet ondersteund in Databricks Runtime 12.2 LTS en hieronder. Dit omvat UDAFs, UDTFs en Pandas met Spark (
applyInPandas
enmapInPandas
). Python scalaire UDF's worden ondersteund in Databricks Runtime 13.3 LTS en hoger.Scala UDF's worden niet ondersteund in Databricks Runtime 14.1 en lager voor berekening met de standaardtoegangsmodus. Scalaire UDF's worden ondersteund in Databricks Runtime 14.2 en hoger voor berekening met de standaardtoegangsmodus.
Standaard-Scala-threadgroepen worden niet ondersteund. Gebruik in plaats daarvan de speciale threadgroepen in
org.apache.spark.util.ThreadUtils
, bijvoorbeeldorg.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. De volgende threadpools inThreadUtils
worden echter niet ondersteund:ThreadUtils.newForkJoinPool
en enigeScheduledExecutorService
threadpool.
- Auditlogboekregistratie wordt alleen ondersteund voor Unity Catalog-gebeurtenissen op werkruimteniveau. Gebeurtenissen die plaatsvinden op accountniveau zonder verwijzing naar een werkruimte, zoals het maken van een metastore, worden niet geregistreerd.
Modellen die zijn geregistreerd in Unity Catalog, hebben extra beperkingen. Zie beperkingen.
Resourcequota
Unity Catalog dwingt resourcequota af voor alle beveiligbare objecten. Deze quota worden vermeld in resourcelimieten. Als u verwacht deze resourcelimieten te overschrijden, neemt u contact op met uw Azure Databricks-accountteam.
U kunt uw quotumgebruik bewaken met behulp van de quota-API's voor Unity Catalog-resources. Zie Houd uw gebruik van Unity Catalog resourcequotes bij.