Delen via


Gegevenshandleidingen

Met het Databricks Data Intelligence Platform kunnen gegevensbeoefenaars in uw organisatie samenwerken en gegevensoplossingen produceren met gedeelde, veilig beheerde gegevensassets en hulpprogramma's.

Dit artikel helpt u bij het identificeren van het juiste beginpunt voor uw use-case.

Voor veel taken in Azure Databricks zijn verhoogde machtigingen vereist. Veel organisaties beperken deze verhoogde machtigingen tot een klein aantal gebruikers of teams. Dit artikel verduidelijkt acties die kunnen worden voltooid door de meeste werkruimtegebruikers van acties die voorbehouden zijn aan bevoegde gebruikers.

Werkruimtebeheerders kunnen u helpen bepalen of u toegang tot assets moet aanvragen of verhoogde machtigingen moet aanvragen.

gegevens zoeken en openen

Deze sectie bevat een kort overzicht van taken om u te helpen bij het detecteren van gegevensassets die voor u beschikbaar zijn. Bij de meeste van deze taken wordt ervan uitgegaan dat een beheerder machtigingen heeft geconfigureerd voor gegevensassets. Zie Gegevenstoegang configureren.

Functiegebied Resources
Gegevensdetectie Zie Gegevens detecterenvoor een gedetailleerder overzicht van gegevensdetectietaken.
Catalogs Catalogi zijn het object op het hoogste niveau in het gegevensbeheermodel van Unity Catalog. Gebruik de Catalog Explorer om tabellen, weergaven en andere gegevensassets te zoeken. Zie Databaseobjecten verkennen.
Verbonden opslag Als u toegang hebt tot rekenresources, kunt u ingebouwde opdrachten gebruiken om bestanden in verbonden opslag te verkennen. Zie Opslag verkennen en gegevensbestanden zoeken.
Lokale bestanden uploaden Standaard hebben gebruikers machtigingen om kleine gegevensbestanden te uploaden vanaf uw lokale computer, zoals CSV's. Zie Een tabel maken of wijzigen met behulp van het uploaden van bestanden.

Werken met gegevens

Deze sectie bevat een overzicht van algemene gegevenstaken en de hulpprogramma's die worden gebruikt om deze taken uit te voeren.

Voor alle beschreven taken moeten gebruikers over de juiste machtigingen beschikken voor hulpprogramma's, rekenresources, gegevens en andere werkruimteartefacten. Zie Gegevenstoegang configureren en Werkruimten en infrastructuur configureren.

Functiegebied Resources
Databaseobjecten Naast tabellen en weergaven maakt Azure Databricks gebruik van andere beveiligbare databaseobjecten, zoals volumes om gegevens veilig te beheren. Zie Database-objecten in Azure Databricks.
Gegevensmachtigingen Unity Catalog bepaalt alle lees- en schrijfbewerkingen in ingeschakelde werkruimten. U moet over voldoende machtigingen beschikken om deze bewerkingen te kunnen voltooien. Zie Beveiligbare objecten in Unity Catalog.
ETL ETL-workloads (Extraheren, transformeren en laden) behoren tot de meest voorkomende toepassingen voor Apache Spark en Azure Databricks, en het grootste deel van het platform heeft functies die zijn gebouwd en geoptimaliseerd voor ETL. Zie zelfstudie: Een ETL-pijplijn bouwen met Lakeflow Spark-declaratieve pijplijnen.
Queries
Dashboards & inzichten
  • Met AI/BI-dashboards kunt u eenvoudig inzichten extraheren en visualiseren in de gebruikersinterface. Zie Dashboards.
  • Genie-ruimten gebruiken tekstprompts om vragen te beantwoorden en inzichten te geven die door uw gegevens worden geïnformeerd. Zie Wat is een AI/BI Genie-omgeving.
Ingest
  • Lakeflow Connect neemt gegevens op van populaire externe systemen. Zie Managed connectors in Lakeflow Connect.
  • Automatisch laden kan worden gebruikt met Lakeflow Spark-declaratieve pijplijnen of structured streaming-taken om incrementeel gegevens op te nemen uit de opslag van cloudobjecten. Zie Wat is Auto Loader?
  • U kunt declaratieve pijplijnen van Lakeflow Spark of Structured Streaming gebruiken om gegevens op te nemen uit berichtenwachtrijen, waaronder Kafka. Zie Streamgegevens opvragen.
Transformations Azure Databricks maakt gebruik van algemene syntaxis en hulpprogramma's voor transformaties die variëren van complexiteit van SQL CTAS-instructies tot bijna realtime streamingtoepassingen.
AI en machinaal leren Het Databricks Data Intelligence Platform biedt een reeks hulpprogramma's voor gegevenswetenschap, machine learning en AI-toepassingen. Bekijk AI en machine learning op Databricks.

Gegevenstoegang configureren

De meeste Azure Databricks-werkruimten zijn afhankelijk van een werkruimtebeheerder of andere hoofdgebruikers om verbindingen met externe gegevensbronnen te configureren en bevoegdheden af te dwingen voor gegevensassets op basis van teamlidmaatschap, regio of rollen. Deze sectie bevat een overzicht van algemene taken voor het configureren en beheren van gegevens die verhoogde machtigingen vereisen.

Note

Voordat u verhoogde machtigingen aanvraagt om een nieuwe verbinding met een gegevensbron te configureren, moet u controleren of u alleen bevoegdheden mist voor een bestaande verbinding, catalogus of tabel. Als er geen gegevensbron beschikbaar is, neemt u contact op met uw organisatie voor het beleid voor het toevoegen van nieuwe gegevens aan uw werkruimte.

Functiegebied Resources
Unity Catalogus
  • Unity Catalog zorgt voor de functies voor gegevensbeheer die zijn ingebouwd in het Databricks Data Intelligence Platform. Zie Wat is Unity Catalog?.
  • Databricks-accountbeheerders, werkruimtebeheerders en metastore-beheerders hebben standaardbevoegdheden voor het beheren van Unity Catalog-gegevensbevoegdheden voor gebruikers. Zie Bevoegdheden beheren in Unity Catalog.
Verbindingen en toegang
Sharing
  • Delta Sharing is de kern van het Azure Databricks-platform voor veilig delen van gegevens, waaronder Databricks Marketplace en Clean Rooms. Zie Gegevens en AI-assets veilig delen met gebruikers in andere organisaties.
  • Beheerders kunnen nieuwe catalogi maken. Catalogi bieden een abstractie op hoog niveau voor gegevensisolatie en kunnen worden gekoppeld aan afzonderlijke werkruimten of worden gedeeld in alle werkruimten in een account. Zie Catalogi maken.- AI/BI-dashboards moedigen eigenaren aan hun referenties in te sluiten bij het publiceren, zodat kijkers inzicht kunnen krijgen in gedeelde resultaten. Zie Een dashboard delenvoor meer informatie.

werkruimten en infrastructuur configureren

Deze sectie bevat een overzicht van algemene taken die zijn gekoppeld aan beheerwerkruimteassets en -infrastructuur. In grote lijnen gedefinieerde werkruimteassets zijn onder andere het volgende:

  • Compute-resources: Rekenresources omvatten interactieve clusters voor alle doeleinden, SQL-warehouses, taakclusters en pijplijn berekenen. Een gebruiker of workload moet machtigingen hebben om verbinding te maken met het uitvoeren van rekenresources om de opgegeven logica te kunnen verwerken.

    Note

    Gebruikers die geen toegang hebben om verbinding te maken met rekenresources, hebben een zeer beperkte functionaliteit in Azure Databricks.

  • Platform-hulpprogramma's: Het Databricks Data Intelligence Platform biedt een reeks hulpprogramma's die zijn afgestemd op verschillende use cases en persona's, zoals notebooks, Databricks SQL en Mosaic AI. Beheerders kunnen instellingen aanpassen met standaardgedrag, optionele functies en gebruikerstoegang voor veel van deze hulpprogramma's.

  • Artefacten: Artefacten bevatten notebooks, query's, dashboards, bestanden, bibliotheken, pijplijnen en taken. Artefacten bevatten code en configuraties die gebruikers maken om de gewenste acties op hun gegevens uit te voeren.

Important

De gebruiker die een werkruimteasset maakt, krijgt standaard de rol eigenaar- toegewezen. Voor de meeste assets kunnen eigenaren machtigingen verlenen aan elke andere gebruiker of groep in de werkruimte.

Om ervoor te zorgen dat gegevens en code veilig zijn, raadt Databricks aan om de rol van eigenaar te configureren voor alle artefacten en rekenresources die zijn geïmplementeerd in een productiewerkruimte.

Functiegebied Resources
Werkruimterechten Werkruimterechten omvatten basistoegang tot werkruimten, toegang tot Databricks SQL en onbeperkte clustercreatie. Zie Rechten beheren.
Toegangsbeleid voor rekenbronnen &
  • De meeste kosten voor Azure Databricks zijn voor rekenresources. Bepalen welke gebruikers de mogelijkheid hebben om verschillende resources te configureren, implementeren, starten en gebruiken, is essentieel voor het beheren van de kosten. Bekijk het overzicht van klassieke berekeningen.
  • Rekenbeleid werkt samen met rekenrechten voor werkruimten om ervoor te zorgen dat rechte gebruikers alleen rekenresources implementeren volgens de opgegeven configuratieregels. Zie Rekenbeleid maken en beheren.
  • Beheerders kunnen standaardgedrag, beleid voor gegevenstoegang en gebruikerstoegang tot SQL Warehouses configureren. Zie SQL Warehouse-beheerinstellingen.
Platformhulpprogramma's Gebruik de beheerconsole om gedrag te configureren, variërend van het aanpassen van het uiterlijk van de werkruimte tot het in- of uitschakelen van producten en functies. Zie Uw werkruimte beheren.
Werkruimte-ACL's Toegangsbeheerlijsten voor werkruimten bepalen hoe gebruikers en groepen kunnen communiceren met werkruimteassets, waaronder rekenresources, codeartefacten en taken. Zie Toegangsbeheerlijsten.

Workloads productioniseren

Alle Azure Databricks-producten zijn gebouwd om het pad van ontwikkeling naar productie te versnellen en voor schaal en stabiliteit. Deze sectie bevat een korte inleiding tot de hulpprogrammasuite die wordt aanbevolen voor het in productie nemen van workloads.

Functiegebied Resources
ETL-pijplijnen Lakeflow Spark Declarative Pipelines biedt een declaratieve syntaxis voor het bouwen en in productie nemen van ETL-pijplijnen. Zie declaratieve pijplijnen van Lakeflow Spark.
Orchestration Met Jobs kunt u complexe workflows definiëren met afhankelijkheden, triggers en schema's. Zie Lakeflow Jobs.
CI/CD Met Databricks Asset Bundles kunt u eenvoudig gegevens, assets en artefacten in werkruimten beheren en implementeren. Zie Wat zijn Databricks-assetbundels?.