Unity Catalog instellen en beheren
In dit artikel wordt uitgelegd hoe u Unity Catalog configureert en gebruikt voor het beheren van gegevens in uw Azure Databricks-werkruimte. Het is voornamelijk bedoeld voor werkruimtebeheerders die Unity Catalog voor het eerst gebruiken.
Aan het einde van dit artikel hebt u het volgende:
- Een werkruimte die is ingeschakeld voor Unity Catalog.
- Compute die toegang heeft tot Unity Catalog.
- Gebruikers met machtigingen voor toegang tot en het maken van objecten in Unity Catalog.
U kunt ook andere inleidende artikelen bekijken:
- Zie zelfstudie: Uw eerste tabel maken en bevoegdheden verlenen voor een beknopt overzicht van het maken van een tabel en het verlenen van machtigingen in Unity Catalog.
- Zie Wat is Unity Catalog? voor belangrijke Concepten van Unity Catalog en een inleiding tot hoe Unity Catalog werkt.
- Zie best practices voor Unity Catalog voor meer informatie over het gebruik van Unity Catalog om te voldoen aan uw behoeften voor gegevensbeheer.
Notitie
Als u een bestaande niet-Unity-Catalogus-werkruimte wilt upgraden naar Unity Catalog, kunt u profiteren van het gebruik van UCX, een Databricks Labs-project dat een set werkstromen en hulpprogramma's biedt voor het upgraden van identiteiten, machtigingen en tabellen naar Unity Catalog. Zie De UCX-hulpprogramma's gebruiken om uw werkruimte te upgraden naar Unity Catalog.
Overzicht van Unity Catalog-activering
Als u Unity Catalog wilt gebruiken, moeten uw Azure Databricks-werkruimten zijn ingeschakeld voor Unity Catalog. Dit betekent dat de werkruimten zijn gekoppeld aan een Unity Catalog-metastore, de container op het hoogste niveau voor metagegevens van Unity Catalog.
De manier waarop beheerders Unity Catalog instellen, is afhankelijk van of de werkruimte automatisch is ingeschakeld voor Unity Catalog of dat handmatige activering is vereist.
Automatisch inschakelen van Unity Catalog
Databricks begon op 9 november 2023 automatisch nieuwe werkruimten in te schakelen voor Unity Catalog, waarbij de implementatie geleidelijk verloopt tussen accounts. Werkruimten die zijn ingeschakeld, hebben automatisch de volgende eigenschappen:
Een automatisch ingerichte Unity Catalog-metastore (tenzij er al een Unity Catalog-metastore bestaat voor de werkruimteregio en de metastore is ingeschakeld voor automatische werkruimtetoewijzing).
Standaardbevoegdheden voor werkruimtebeheerders, zoals de mogelijkheid om een catalogus of een externe databaseverbinding te maken.
Geen metastore-beheerder (tenzij er een bestaande Unity Catalog-metastore is gebruikt en er al een metastore-beheerder is toegewezen).
Er is geen opslag op metastoreniveau voor beheerde tabellen en beheerde volumes (tenzij een bestaande Unity Catalog-metastore met opslag op metastoreniveau is gebruikt).
Een werkruimtecatalogus, die, wanneer deze oorspronkelijk is ingericht, een naam heeft na uw werkruimte.
Alle gebruikers in uw werkruimte kunnen assets maken in het
default
schema in deze catalogus. Deze catalogus is standaard gebonden aan uw werkruimte, wat betekent dat deze alleen toegankelijk is via uw werkruimte. Automatische inrichting van de werkruimtecatalogus bij het maken van werkruimten wordt geleidelijk geïmplementeerd in accounts.
Deze standaardconfiguraties werken goed voor de meeste werkruimten, maar ze kunnen allemaal worden gewijzigd door een werkruimtebeheerder of accountbeheerder. Een accountbeheerder kan bijvoorbeeld een metastore-beheerder toewijzen en opslag op metastoreniveau maken en een werkruimtebeheerder kan de naam en toegang van de werkruimtecatalogus wijzigen.
Wat gebeurt er als mijn werkruimte niet automatisch is ingeschakeld voor Unity Catalog?
Als uw werkruimte niet automatisch is ingeschakeld voor Unity Catalog, moet een accountbeheerder of metastore-beheerder de werkruimte handmatig koppelen aan een Unity Catalog-metastore in dezelfde regio. Als er geen Unity-catalogus-metastore in de regio bestaat, moet een accountbeheerder er een maken. Zie Een Unity Catalog-metastore maken voor instructies.
Hoe kan ik weten of mijn werkruimte is ingeschakeld voor Unity Catalog?
Als u wilt controleren of uw werkruimte is ingeschakeld voor Unity Catalog, vraagt u een beheerder of accountbeheerder van de Azure Databricks-werkruimte om te controleren op u. Zie ook stap 1: Controleer of uw werkruimte is ingeschakeld voor Unity Catalog.
Hoe kan ik weten of mijn werkruimte een werkruimtecatalogus bevat?
Sommige nieuwe werkruimten hebben een werkruimtecatalogus, die, wanneer deze oorspronkelijk is ingericht, de naam heeft van uw werkruimte. Als u wilt bepalen of uw werkruimte er een heeft, klikt u op Catalogus in de zijbalk om Catalogusverkenner te openen en zoekt u naar een catalogus met de naam van uw werkruimte als catalogusnaam.
Notitie
De werkruimtecatalogus is net als elke andere catalogus in Unity Catalog: een werkruimtebeheerder kan de naam wijzigen, het eigendom ervan wijzigen of zelfs verwijderen. Direct nadat de werkruimte is gemaakt, wordt echter de naam van de werkruimte
Voordat u begint
Voordat u begint met de taken die in dit artikel worden beschreven, moet u vertrouwd raken met de basisconcepten van de Unity Catalog, waaronder metastores, beheerdersrollen en beheerde opslag. Bekijk Wat is Unity Catalog?
U moet ook bevestigen dat u voldoet aan de volgende vereisten:
Een Azure Databricks-werkruimte in het Premium-abonnement.
De volgende rollen en bevoegdheden, die afhankelijk zijn van de status van uw werkruimte:
Werkruimtebeheerder: Als uw werkruimte automatisch is ingeschakeld voor Unity Catalog toen deze werd gemaakt, moet u een werkruimtebeheerder zijn om de vereiste taken te voltooien.
Accountbeheerder: Als uw werkruimte nog niet is ingeschakeld voor Unity Catalog, moet een accountbeheerder de werkruimte koppelen aan de metastore.
Als er geen Unity Catalog-metastore in dezelfde regio is als de werkruimte, moet een accountbeheerder ook de Unity Catalog-metastore maken.
Instructies voor het bepalen of er een metastore bestaat voor uw werkruimteregio, samen met instructies voor het maken van een metastore, volgt u in dit artikel.
Zie Beheerdersbevoegdheden in Unity Catalog en Automatische activering van Unity Catalog.
Stap 1: Controleer of uw werkruimte is ingeschakeld voor Unity Catalog
In deze stap bepaalt u of uw werkruimte al is ingeschakeld voor Unity Catalog, waarbij het inschakelen is gedefinieerd als een Unity Catalog-metastore die is gekoppeld aan de werkruimte. Als uw werkruimte niet is ingeschakeld voor Unity Catalog, moet u uw werkruimte handmatig inschakelen voor Unity Catalog. Zie volgende stappen als uw werkruimte niet is ingeschakeld voor Unity Catalog.
Ga op een van de volgende manieren te werk om dit te bevestigen.
De accountconsole gebruiken om de activering van Unity Catalog te bevestigen
- Meld u als azure Databricks-accountbeheerder aan bij de accountconsole.
- Klik op Werkruimten.
- Zoek uw werkruimte en controleer de kolom Metastore . Als er een metastore-naam aanwezig is, is uw werkruimte gekoppeld aan een Unity Catalog-metastore en daarom ingeschakeld voor Unity Catalog.
Een SQL-query uitvoeren om de activering van Unity Catalog te bevestigen
Voer de volgende SQL-query uit in de SQL-queryeditor of een notebook dat is gekoppeld aan een cluster dat gebruikmaakt van de modus voor gedeelde of individuele gebruikerstoegang . Zie Access-modi. Er is geen beheerdersrol vereist.
SELECT CURRENT_METASTORE();
Als de query een metastore-id retourneert zoals hieronder, wordt uw werkruimte gekoppeld aan een Unity Catalog-metastore en daarom ingeschakeld voor Unity Catalog.
Volgende stappen als uw werkruimte niet is ingeschakeld voor Unity Catalog
Als uw werkruimte niet is ingeschakeld voor Unity Catalog (gekoppeld aan een metastore), is de volgende stap afhankelijk van of u al een Unity Catalog-metastore hebt gedefinieerd voor uw werkruimteregio:
- Als voor uw account al een Unity Catalog-metastore is gedefinieerd voor uw werkruimteregio, kunt u uw werkruimte koppelen aan de bestaande metastore. Ga naar Uw werkruimte inschakelen voor Unity Catalog.
- Als er geen Unity Catalog-metastore is gedefinieerd voor de regio van uw werkruimte, moet u een metastore maken en vervolgens de werkruimte koppelen. Ga naar Een Unity Catalog-metastore maken.
Wanneer uw werkruimte is ingeschakeld voor Unity Catalog, gaat u naar de volgende stap.
Stap 2: Gebruikers toevoegen en de rol werkruimtebeheerder toewijzen
De gebruiker die de werkruimte maakt, wordt automatisch toegevoegd als werkruimtegebruiker met de rol werkruimtebeheerder (dat wil gezegd een gebruiker in de admins
werkruimte-lokale groep). Als werkruimtebeheerder kunt u gebruikers toevoegen aan en uitnodigen voor de werkruimte, de rol werkruimtebeheerder toewijzen aan andere gebruikers en service-principals en groepen maken.
Accountbeheerders kunnen ook gebruikers, service-principals en groepen toevoegen aan uw werkruimte. Ze kunnen de accountbeheerder en metastore-beheerdersrollen verlenen.
Zie Gebruikers beheren voor meer informatie.
(Aanbevolen) Identiteiten op accountniveau synchroniseren vanuit Microsoft Entra-id
Het kan handig zijn om gebruikerstoegang tot Azure Databricks te beheren door inrichting vanuit Microsoft Entra-id in te stellen. Zie Gebruikers en groepen synchroniseren vanuit Microsoft Entra ID voor volledige instructies.
Stap 3: Clusters of SQL-warehouses maken die gebruikers kunnen gebruiken om query's uit te voeren en objecten te maken
Als u Unity Catalog-workloads wilt uitvoeren, moeten rekenresources voldoen aan bepaalde beveiligingsvereisten. Niet-compatibele rekenresources hebben geen toegang tot gegevens of andere objecten in Unity Catalog. SQL-warehouses voldoen altijd aan de Vereisten voor Unity Catalog, maar sommige clustertoegangsmodi niet. Zie Access-modi.
Als werkruimtebeheerder kunt u ervoor kiezen om rekenkracht te maken die beperkt is tot beheerders of om gebruikers hun eigen SQL-magazijnen en -clusters te laten maken. U kunt ook clusterbeleid maken waarmee gebruikers hun eigen clusters kunnen maken met behulp van specificaties die compatibel zijn met Unity Catalog die u afdwingt. Zie Compute-machtigingen en rekenbeleid maken en beheren.
Stap 4: Bevoegdheden verlenen aan gebruikers
Een gebruiker moet gemachtigd zijn om objecten te maken en te openen in Unity Catalog-catalogi en -schema's. In deze sectie worden de gebruikers- en beheerdersbevoegdheden beschreven die standaard zijn verleend voor sommige werkruimten en wordt beschreven hoe u extra bevoegdheden kunt verlenen.
Standaardgebruikersbevoegdheden
Sommige werkruimten hebben standaardrechten voor gebruikers (niet-beheerders) bij het starten:
Als uw werkruimte wordt gestart met een automatisch ingerichte werkruimtecatalogus, kunnen alle werkruimtegebruikers objecten maken in het schema van
default
de werkruimtecatalogus.Zie Hoe kan ik weten of mijn werkruimte een werkruimtecatalogus bevat?voor meer informatie over hoe u kunt bepalen of uw werkruimte een werkruimtecatalogus bevat.
Als uw werkruimte handmatig is ingeschakeld voor Unity Catalog, is er automatisch een
main
catalogus ingericht.Werkruimtegebruikers hebben de
USE CATALOG
bevoegdheid voor demain
catalogus, die niet de mogelijkheid verleent om objecten in de catalogus te maken of te selecteren, maar is een vereiste voor het werken met objecten in de catalogus. De gebruiker die de metastore heeft gemaakt, is standaard eigenaar van demain
catalogus en kan eigendom overdragen en toegang verlenen aan andere gebruikers.Als metastore-opslag wordt toegevoegd nadat de metastore is gemaakt, wordt er geen
main
catalogus ingericht.
Voor andere werkruimten zijn standaard geen catalogi gemaakt en zijn standaard geen gebruikersbevoegdheden voor niet-beheerders ingeschakeld. Een werkruimtebeheerder moet de eerste catalogus maken en gebruikers toegang verlenen tot de catalogus en de objecten erin. Ga verder met stap 5: Nieuwe catalogi en schema's maken voordat u de stappen in deze sectie voltooit.
Standaardbeheerdersbevoegdheden
Sommige werkruimten hebben standaardbevoegdheden voor werkruimtebeheerders bij het starten:
- Als uw werkruimte automatisch is ingeschakeld voor Unity Catalog:
- Werkruimtebeheerders kunnen nieuwe catalogi en objecten maken in nieuwe catalogi en toegang verlenen.
- Er is standaard geen metastore-beheerder.
- Werkruimtebeheerders zijn eigenaar van de werkruimtecatalogus (indien aanwezig) en kunnen toegang verlenen tot die catalogus en alle objecten in die catalogus.
- Als uw werkruimte handmatig is ingeschakeld voor Unity Catalog:
- Werkruimtebeheerders hebben standaard geen speciale Unity Catalog-bevoegdheden.
- Metastore-beheerders moeten bestaan en kunnen elk Unity Catalog-object maken en eigenaar worden van elk Unity Catalog-object.
Zie Werkruimtebeheerdersbevoegdheden wanneer werkruimten automatisch zijn ingeschakeld voor Unity Catalog voor een lijst met extra objectbevoegdheden die zijn verleend aan werkruimtebeheerders in automatisch ingeschakelde Unity Catalog.
Bevoegdheden verlenen
Voor toegang tot andere objecten dan die in de vorige secties, moet een bevoegde gebruiker die toegang verlenen.
Als u bijvoorbeeld een groep de mogelijkheid wilt geven om nieuwe schema's my-catalog
te maken, kan de cataloguseigenaar het volgende uitvoeren in de SQL-editor of een notebook:
GRANT CREATE SCHEMA ON my-catalog TO `data-consumers`;
Als uw werkruimte automatisch is ingeschakeld voor Unity Catalog, is de werkruimtebeheerder eigenaar van de werkruimtecatalogus en kan deze de mogelijkheid bieden om nieuwe schema's te maken:
GRANT CREATE SCHEMA ON <workspace-catalog> TO `data-consumers`;
U kunt ook bevoegdheden verlenen en intrekken met Behulp van Catalog Explorer.
Belangrijk
U kunt geen bevoegdheden verlenen aan de werkruimte-lokaal users
of admins
groepen. Als u bevoegdheden wilt verlenen voor groepen, moeten ze groepen op accountniveau zijn.
Zie Bevoegdheden beheren in Unity Catalog voor meer informatie over het beheren van bevoegdheden in Unity Catalog.
Stap 5: Nieuwe catalogi en schema's maken
Als u Unity Catalog wilt gaan gebruiken, moet ten minste één catalogus zijn gedefinieerd. Catalogi zijn de primaire eenheid van gegevensisolatie en organisatie in Unity Catalog. Alle schema's en tabellen bevinden zich in catalogi, zoals volumes, weergaven en modellen.
Sommige werkruimten hebben geen automatisch ingerichte catalogus. Als u Unity Catalog wilt gebruiken, moet een werkruimtebeheerder de eerste catalogus voor dergelijke werkruimten maken.
Andere werkruimten hebben toegang tot een vooraf ingerichte catalogus waartoe uw gebruikers toegang hebben om aan de slag te gaan (de werkruimtecatalogus of de main
catalogus, afhankelijk van hoe uw werkruimte is ingeschakeld voor Unity Catalog). Wanneer u meer gegevens en AI-assets toevoegt aan Azure Databricks, kunt u extra catalogi maken om deze assets te groeperen op een manier waarmee u gegevens eenvoudig logisch kunt beheren.
Zie best practices voor Unity Catalog voor aanbevelingen over hoe u catalogi en schema's het beste kunt gebruiken om uw gegevens en AI-assets te organiseren.
Als metastore-beheerder, werkruimtebeheerder (alleen voor automatisch ingeschakelde werkruimten) of als andere gebruiker met de CREATE CATALOG
bevoegdheid, kunt u nieuwe catalogi maken in de metastore. Wanneer u dit doet, moet u het volgende doen:
Beheerde opslag maken voor de nieuwe catalogus.
Beheerde opslag is een toegewezen opslaglocatie in uw Azure-account voor beheerde tabellen en beheerde volumes. U kunt beheerde opslag toewijzen aan de metastore, aan catalogi en aan schema's. Wanneer een gebruiker een tabel maakt, worden de gegevens opgeslagen in de opslaglocatie die het laagst in de hiërarchie is. Als er bijvoorbeeld een opslaglocatie is gedefinieerd voor de metastore en catalogus, maar niet voor het schema, worden de gegevens opgeslagen op de locatie die voor de catalogus is gedefinieerd.
Databricks raadt u aan beheerde opslag toe te wijzen op catalogusniveau, omdat catalogi doorgaans logische eenheden van gegevensisolatie vertegenwoordigen. Als u vertrouwd bent met gegevens in meerdere catalogi die dezelfde opslaglocatie delen, kunt u standaard de opslaglocatie op metastoreniveau gebruiken. Als uw werkruimte automatisch is ingeschakeld voor Unity Catalog, is er standaard geen opslag op metastoreniveau. Een accountbeheerder heeft de mogelijkheid om opslag op metastore-niveau te configureren. Zie Een beheerde opslaglocatie opgeven in Unity Catalog en beheerde opslag toevoegen aan een bestaande metastore.
Voor het toewijzen van beheerde opslag aan een catalogus moet u het volgende maken:
- Een opslagreferentie.
- Een externe locatie die verwijst naar die opslagreferentie.
Zie Verbinding maken met cloudobjectopslag met behulp van Unity Catalog voor een inleiding tot deze objecten en instructies voor het maken ervan.
Koppel de nieuwe catalogus aan uw werkruimte als u de toegang wilt beperken tot andere werkruimten die dezelfde metastore delen.
Verdeel bevoegdheden voor de catalogus.
Zie Catalogi maken voor gedetailleerde instructies.
Voorbeeld van het maken van een catalogus
In het volgende voorbeeld ziet u het maken van een catalogus met beheerde opslag, gevolgd door het verlenen van de SELECT
bevoegdheid voor de catalogus:
CREATE CATALOG IF NOT EXISTS mycatalog
MANAGED LOCATION 'abfss://mycontainer@<myaccount.dfs.core.windows.net//depts/finance';
GRANT SELECT ON mycatalog TO `finance-team`;
Zie Catalogussen maken voor meer voorbeelden, waaronder instructies voor het maken van catalogi met Catalog Explorer.
Een schema maken
Schema's vertegenwoordigen meer gedetailleerde groeperingen (zoals afdelingen of projecten) dan catalogi. Alle tabellen en andere Unity Catalog-objecten in de catalogus zijn opgenomen in schema's. Als eigenaar van een nieuwe catalogus wilt u mogelijk de schema's in de catalogus maken. Maar misschien wilt u in plaats daarvan de mogelijkheid om schema's te maken aan andere gebruikers delegeren door hen de CREATE SCHEMA
bevoegdheid te geven voor de catalogus.
Zie Schema's maken voor gedetailleerde instructies.
(Optioneel) De beheerdersrol metastore toewijzen
Als uw werkruimte automatisch is ingeschakeld voor Unity Catalog, wordt standaard geen metastore-beheerdersrol toegewezen. Metastore-beheerders hebben enkele bevoegdheden die werkruimtebeheerders niet hebben.
U kunt een metastore-beheerder toewijzen als u het volgende moet doen:
Het eigendom van catalogi wijzigen nadat iemand het bedrijf verlaat.
Machtigingen voor het init-script en jar-acceptatielijst beheren en delegeren.
Delegeren de mogelijkheid om catalogi en andere machtigingen op het hoogste niveau te maken voor niet-werkruimtebeheerders.
Gedeelde gegevens ontvangen via Delta Sharing.
Gebruik schone kamers.
Verwijder standaardmachtigingen voor werkruimtebeheerders.
Voeg beheerde opslag toe aan de metastore als deze geen opslag heeft. Zie Beheerde opslag toevoegen aan een bestaande metastore.
Zie Een metastore-beheerder toewijzen voor gedetailleerde informatie over de beheerdersrol en instructies voor het toewijzen ervan.
Tabellen in uw Hive-metastore upgraden naar Unity Catalog-tabellen
Als uw werkruimte in service was voordat deze was ingeschakeld voor Unity Catalog, heeft deze waarschijnlijk een Hive-metastore met gegevens die u wilt blijven gebruiken. Databricks raadt u aan de tabellen die worden beheerd door de Hive-metastore te migreren naar de Unity Catalog-metastore.
Zie Hive-tabellen en -weergaven upgraden naar Unity Catalog en gebruik de UCX-hulpprogramma's om uw werkruimte te upgraden naar Unity Catalog.
(Optioneel) Blijf werken met uw Hive-metastore
Als uw werkruimte een Hive-metastore bevat die gegevens bevat die u wilt blijven gebruiken en u ervoor kiest niet de aanbeveling te volgen om de tabellen die worden beheerd door de Hive-metastore, te upgraden naar de Unity Catalog-metastore, kunt u blijven werken met gegevens in de Hive-metastore naast gegevens in de Unity Catalog-metastore.
De Hive-metastore wordt weergegeven in Unity Catalog-interfaces als een catalogus met de naam hive_metastore
. Als u wilt blijven werken met gegevens in uw Hive-metastore zonder dat u query's hoeft bij te werken om de hive_metastore
catalogus op te geven, kunt u de standaardcatalogus van de werkruimte instellen op hive_metastore
. Zie De standaardcatalogus beheren.
Afhankelijk van wanneer uw werkruimte is ingeschakeld voor Unity Catalog, is hive_metastore
de standaardcatalogus mogelijk al.
(Optioneel) Opslag op metastoreniveau maken
Hoewel Databricks aanraadt om een afzonderlijke beheerde opslaglocatie te maken voor elke catalogus in uw metastore (en u kunt hetzelfde doen voor schema's), kunt u in plaats daarvan een beheerde locatie maken op metastoreniveau en deze gebruiken als opslag voor meerdere catalogi en schema's.
Als u opslag op metastoreniveau wilt, moet u ook een metastore-beheerder toewijzen. Zie (Optioneel) De beheerdersrol metastore toewijzen.
Opslag op metastoreniveau is alleen vereist als het volgende waar is:
- U wilt notebooks delen met Databricks-to-Databricks Delta Sharing.
- U gebruikt een Databricks-partnerproductintegratie die afhankelijk is van persoonlijke faseringslocaties (afgeschaft).
Zie Gegevens zijn fysiek gescheiden in de opslag voor meer informatie over de hiërarchie van beheerde opslaglocaties.
Zie Beheerde opslag toevoegen aan een bestaande metastore voor meer informatie over het toevoegen van opslag op metastoreniveau aan metastores die geen hebben.
Notitie
De meeste werkruimten die vóór 9 november 2023 zijn ingeschakeld voor Unity Catalog, hebben een opslaghoofdmap op metastore-niveau.
Volgende stappen
- Voer een snelle zelfstudie uit om uw eerste tabel te maken in Unity Catalog: Zelfstudie: Uw eerste tabel maken en bevoegdheden verlenen
- Meer informatie over Unity Catalog: Wat is Unity Catalog?
- Aanbevolen procedures voor het gebruik van Unity Catalog: best practices voor Unity Catalog
- Meer informatie over het verlenen en intrekken van bevoegdheden: Bevoegdheden beheren in Unity Catalog
- Meer informatie over het maken van tabellen
- Meer informatie over het upgraden van Hive-tabellen naar Unity Catalog
- Installeer de Databricks CLI: Wat is de Databricks CLI?