Azure Databricks-concepten

Artikel
10/30/2024

In dit artikel worden basisconcepten geïntroduceerd die u moet begrijpen om Azure Databricks effectief te kunnen gebruiken.

Accounts en werkruimten

In Azure Databricks is een werkruimte een Azure Databricks-implementatie in de cloud die fungeert als een omgeving voor uw team voor toegang tot Databricks-assets. Uw organisatie kan ervoor kiezen om meerdere werkruimten of slechts één werkruimte te hebben, afhankelijk van de behoeften.

Een Azure Databricks-account vertegenwoordigt één entiteit die meerdere werkruimten kan bevatten. Accounts die zijn ingeschakeld voor Unity Catalog , kunnen worden gebruikt om gebruikers en hun toegang tot gegevens centraal te beheren in alle werkruimten in het account.

Facturering: Databricks-eenheden (DBU's)

Azure Databricks factureert op basis van Databricks-eenheden (DBU's), die eenheden van verwerkingscapaciteit per uur zijn op basis van het type VM-exemplaar.

Zie de pagina met prijzen van Azure Databricks.

Verificatie en autorisatie

In deze sectie worden concepten beschreven die u moet weten wanneer u Azure Databricks-identiteiten en hun toegang tot Azure Databricks-assets beheert.

User

Een unieke persoon die toegang heeft tot het systeem. Gebruikersidentiteiten worden vertegenwoordigd door e-mailadressen. Zie Gebruikers beheren.

Service-principal

Een service-identiteit voor gebruik met taken, geautomatiseerde hulpprogramma's en systemen zoals scripts, apps en CI/CD-platforms. Service-principals worden vertegenwoordigd door een toepassings-id. Zie Service-principals beheren.

Groep

Een verzameling identiteiten. Groepen vereenvoudigen identiteitsbeheer, waardoor het eenvoudiger is om toegang toe te wijzen aan werkruimten, gegevens en andere beveiligbare objecten. Alle Databricks-identiteiten kunnen worden toegewezen als leden van groepen. Zie Groepen beheren.

Toegangsbeheerlijst (ACL)

Een lijst met machtigingen die zijn gekoppeld aan de werkruimte, het cluster, de taak, de tabel of het experiment. Een ACL geeft aan welke gebruikers of systeemprocessen toegang krijgen tot de objecten en welke bewerkingen op de assets zijn toegestaan. Elke vermelding in een typische ACL geeft een onderwerp en een bewerking op. Zie Toegangsbeheerlijsten.

Persoonlijk toegangstoken (PAT)

Een persoonlijk toegangstoken is een tekenreeks die wordt gebruikt voor het verifiëren van REST API-aanroepen, verbindingen van technologiepartners en andere hulpprogramma's. Zie persoonlijke toegangstokenverificatie van Azure Databricks.

Microsoft Entra ID-tokens kunnen ook worden gebruikt om te verifiëren bij de REST API.

Azure Databricks-interfaces

In deze sectie worden de interfaces beschreven voor toegang tot uw assets in Azure Databricks.

Gebruikersinterface

De Gebruikersinterface van Azure Databricks is een grafische interface voor interactie met functies, zoals werkruimtemappen en hun ingesloten objecten, gegevensobjecten en rekenbronnen.

REST-API

De Databricks REST API biedt eindpunten voor het wijzigen of aanvragen van informatie over Azure Databricks-account- en werkruimteobjecten. Zie de accountreferentie en werkruimtereferentie.

SQL REST API

Met de SQL REST API kunt u taken op SQL-objecten automatiseren. Zie DE SQL-API.

CLI

De Databricks CLI wordt gehost op GitHub. De CLI is gebouwd op basis van de Databricks REST API.

Gegevensbeheer

In deze sectie worden de logische objecten beschreven waarin gegevens worden opgeslagen die u invoert in machine learning-algoritmen en waarop u analyses uitvoert. Daarnaast wordt de in-platformgebruikersinterface beschreven voor het verkennen en beheren van gegevensobjecten.

Unity-catalogus

Unity Catalog is een geïntegreerde governanceoplossing voor gegevens en AI-assets in Azure Databricks die gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie biedt in Databricks-werkruimten. Bekijk Wat is Unity Catalog?

DBFS-hoofdmap

Belangrijk

Het opslaan en openen van gegevens met behulp van DBFS-hoofd- of DBFS-koppelingen is een afgeschaft patroon en wordt niet aanbevolen door Databricks. In plaats daarvan raadt Databricks het gebruik van Unity Catalog aan om de toegang tot alle gegevens te beheren. Bekijk Wat is Unity Catalog?

De DBFS-hoofdmap is standaard een opslaglocatie die beschikbaar is voor alle gebruikers. Zie Wat is DBFS?

Catalogusverkenner

Met Catalog Explorer kunt u gegevens en AI-assets verkennen en beheren, waaronder schema's (databases), tabellen, modellen, volumes (niet-tabellaire gegevens), functies en geregistreerde ML-modellen. U kunt deze gebruiken om gegevensobjecten en eigenaren te vinden, gegevensrelaties tussen tabellen te begrijpen en machtigingen en delen te beheren. Zie Wat is Catalog Explorer?

Database

Een verzameling gegevensobjecten, zoals tabellen of weergaven en functies, die zijn georganiseerd, zodat deze eenvoudig kunnen worden geopend, beheerd en bijgewerkt. Zie Wat zijn schema's in Azure Databricks?

Tabel

Een weergave van gestructureerde gegevens. U kunt query's uitvoeren op tabellen met Apache Spark SQL- en Apache Spark-API's. Zie Wat zijn tabellen en weergaven?

Delta-tabel

Standaard zijn alle tabellen die zijn gemaakt in Azure Databricks Delta-tabellen. Delta-tabellen zijn gebaseerd op het opensource-project delta lake, een framework voor hoogwaardige ACID-tabelopslag via cloudobjectarchieven. Een Delta-tabel slaat gegevens op als een map met bestanden in de opslag van cloudobjecten en registreert metagegevens van tabellen in de metastore binnen een catalogus en schema.

Meer informatie over technologieën die zijn gemerkt als Delta.

Metastore

Het onderdeel waarin alle structuurgegevens van de verschillende tabellen en partities in het datawarehouse worden opgeslagen, inclusief gegevens over kolom- en kolomtypen, de serializers en deserialisaties die nodig zijn voor het lezen en schrijven van gegevens en de bijbehorende bestanden waarin de gegevens worden opgeslagen. Zie Metastores

Elke Azure Databricks-implementatie heeft een centrale Hive-metastore die toegankelijk is voor alle clusters om metagegevens van de tabel persistent te maken. U hebt ook de mogelijkheid om een bestaande externe Hive-metastore te gebruiken.

Berekeningsbeheer

In deze sectie worden concepten beschreven die u moet weten om berekeningen uit te voeren in Azure Databricks.

Cluster

Een set rekenbronnen en configuraties waarop u notebooks en taken uitvoert. Er zijn twee typen clusters: all-purpose en job. Zie Compute.

U maakt een cluster voor alle doeleinden met behulp van de gebruikersinterface, CLI of REST API. Een cluster voor alle doeleinden kunt u handmatig beëindigen en opnieuw starten. Meerdere gebruikers kunnen dergelijke clusters delen om gezamenlijke interactieve analyses uit te voeren.
De Azure Databricks-taakplanner maakt een taakcluster wanneer u een taak uitvoert op een nieuw taakcluster en beëindigt het cluster wanneer de taak is voltooid. U kunt een taakcluster niet opnieuw opstarten.

Groep

Een set niet-actieve, kant-en-klare exemplaren die het starten en automatisch schalen van clusters verminderen. Wanneer het is gekoppeld aan een pool, wijst een cluster het stuurprogramma en de werkknooppunten van de pool toe. Raadpleeg de naslaginformatie voor de poolconfiguratie.

Als de pool onvoldoende niet-actieve resources heeft om tegemoet te komen aan de aanvraag van het cluster, wordt de pool uitgebreid door nieuwe exemplaren toe te wijzen van de instantieprovider. Wanneer een gekoppeld cluster wordt beëindigd, worden de gebruikte exemplaren geretourneerd naar de pool en kunnen ze opnieuw worden gebruikt door een ander cluster.

Databricks Runtime

De set kernonderdelen die worden uitgevoerd op de clusters die worden beheerd door Azure Databricks. Zie Compute. Azure Databricks heeft de volgende runtimes:

Databricks Runtime bevat Apache Spark, maar voegt ook een aantal onderdelen en updates toe die de bruikbaarheid, prestaties en beveiliging van big data-analyses aanzienlijk verbeteren.
Databricks Runtime voor Machine Learning is gebouwd op Databricks Runtime en biedt vooraf gebouwde machine learning-infrastructuur die is geïntegreerd met alle mogelijkheden van de Azure Databricks-werkruimte. Het bevat meerdere populaire bibliotheken, waaronder TensorFlow, Keras, PyTorch en XGBoost.

Werkstromen

De gebruikersinterface van de werkruimte Werkstromen biedt toegang tot de UIS's taken en DLT Pipelines. Dit zijn hulpprogramma's waarmee u werkstromen kunt organiseren en plannen.

Projecten

Een niet-interactief mechanisme voor het organiseren en plannen van notebooks, bibliotheken en andere taken. Werkstromen plannen en organiseren

Pipelines

Delta Live Tables Pipelines bieden een declaratief framework voor het bouwen van betrouwbare, onderhoudbare en testbare pijplijnen voor gegevensverwerking. Zie Wat is Delta Live Tables?

Workload

Workload is de hoeveelheid verwerkingsmogelijkheid die nodig is om een taak of groep taken uit te voeren. Azure Databricks identificeert twee typen workloads: data engineering (taak) en gegevensanalyse (alle doeleinden).

Een (geautomatiseerde) werkbelasting wordt uitgevoerd op een taakcluster dat door de Azure Databricks-taakplanner voor elke workload wordt gemaakt.
Gegevensanalyse Een (interactieve) workload wordt uitgevoerd op een cluster voor alle doeleinden. Interactieve workloads voeren doorgaans opdrachten uit in een Azure Databricks-notebook. Het uitvoeren van een taak op een bestaand cluster met alle doeleinden wordt echter ook behandeld als een interactieve workload.

Context voor uitvoering

De status voor een REPL-omgeving (read-eval-print loop) voor elke ondersteunde programmeertaal. De ondersteunde talen zijn Python, R, Scala en SQL.

Data-engineering

Hulpprogramma's voor data engineering helpen de samenwerking tussen gegevenswetenschappers, data engineers, gegevensanalisten en machine learning-engineers.

Werkplek

Een werkruimte is een omgeving voor toegang tot al uw Azure Databricks-assets. Een werkruimte organiseert objecten (notebooks, bibliotheken, dashboards en experimenten) in mappen en biedt toegang tot gegevensobjecten en rekenbronnen.

Notebook

Een webinterface voor het maken van data science- en machine learning-werkstromen die uitvoerbare opdrachten, visualisaties en verhaaltekst kunnen bevatten. Zie Inleiding tot Databricks-notebooks.

Bibliotheek

Een pakket met code dat beschikbaar is voor het notebook of de taak die wordt uitgevoerd op uw cluster. Databricks-runtimes bevatten veel bibliotheken en u kunt ook uw eigen bibliotheken uploaden. Zie Bibliotheken.

Git-map (voorheen opslagplaatsen)

Een map waarvan de inhoud gezamenlijk wordt gecompatieerd door ze te synchroniseren met een externe Git-opslagplaats. Databricks Git-mappen kunnen worden geïntegreerd met Git om bron- en versiebeheer voor uw projecten te bieden.

AI + Machine Learning

Databricks biedt een geïntegreerde end-to-end-omgeving met beheerde services voor het ontwikkelen en implementeren van AI- en machine learning-toepassingen.

Mozaïek AI

De merknaam voor producten en services van Databricks Mosaic AI Research, een team van onderzoekers en technici die verantwoordelijk zijn voor Databricks grootste doorbraaks in generatieve AI. Mozaïek AI-producten omvatten de ML- en AI-functies in Databricks. Zie Mozaïekonderzoek.

Machine learning-runtime

Om u te helpen ML- en AI-modellen te ontwikkelen, biedt Databricks een Databricks Runtime voor Machine Learning, waarmee het maken van berekeningen wordt geautomatiseerd met vooraf gebouwde machine learning- en deep learning-infrastructuur, waaronder de meest voorkomende ML- en DL-bibliotheken. Het heeft ook ingebouwde, vooraf geconfigureerde GPU-ondersteuning, waaronder stuurprogramma's en ondersteunende bibliotheken. Blader naar informatie over de nieuwste runtimeversies van Databricks Runtime releaseopmerkingen versies en compatibiliteit.

Experiment

Een verzameling MLflow-uitvoeringen voor het trainen van een machine learning-model. Zie Trainingsuitvoeringen organiseren met MLflow-experimenten.

Functies

Functies zijn een belangrijk onderdeel van ML-modellen. Een functiearchief maakt het delen en ontdekken van functies in uw organisatie mogelijk en zorgt er ook voor dat dezelfde functieberekeningscode wordt gebruikt voor modeltraining en deductie. Zie Functie-engineering en -bediening.

GenAI-modellen

Databricks ondersteunt het verkennen, ontwikkelen en implementeren van generatieve AI-modellen, waaronder:

AI-speeltuin, een chatachtige omgeving in de werkruimte waar u LLM's kunt testen, vragen en vergelijken. Zie Chat met LLM's en prototype GenAI-apps met AI Playground.
Een ingebouwde set vooraf geconfigureerde basismodellen waarop u query's kunt uitvoeren:
- Zie Api's voor het model voor betalen per token foundation.
- Zie [Aanbevolen] Basismodellen implementeren vanuit Unity Catalog voor basismodellen die u met één klik kunt gebruiken.
Gehoste LLM's van derden, ook wel externe modellen genoemd. Deze modellen zijn bedoeld om als zodanig te worden gebruikt.
Mogelijkheden voor het aanpassen van een basismodel om de prestaties voor uw specifieke toepassing te optimaliseren (ook wel fine-tuning genoemd). Zie Mozaïek AI-modeltraining voor basismodellen.

Modelregister

Databricks biedt een gehoste versie van MLflow Model Registry in Unity Catalog. Modellen die zijn geregistreerd in Unity Catalog nemen gecentraliseerd toegangsbeheer, herkomst en detectie en toegang tussen werkruimten over. Zie De levenscyclus van het model beheren in Unity Catalog.

Modellering

Mosaic AI Model Serving biedt een uniforme interface voor het implementeren, beheren en opvragen van AI-modellen. Elk model dat u gebruikt, is beschikbaar als een REST API die u kunt integreren in uw web- of clienttoepassing. Met Mosaic AI Model Serving kunt u uw eigen modellen, basismodellen of externe modellen implementeren die buiten Databricks worden gehost. Zie Model dat wordt geleverd met Azure Databricks.

Datawarehousing

Datawarehousing verwijst naar het verzamelen en opslaan van gegevens uit meerdere bronnen, zodat deze snel kunnen worden geopend voor zakelijke inzichten en rapportage. Databricks SQL is de verzameling services die datawarehousingmogelijkheden en -prestaties bieden aan uw bestaande data lakes. Bekijk wat is datawarehousing in Azure Databricks?

Query

Een query is een geldige SQL-instructie waarmee u met uw gegevens kunt werken. U kunt query's maken met behulp van de in-platform SQL-editor of verbinding maken met behulp van een SQL-connector, -stuurprogramma of -API. Zie Opgeslagen query's in Access en beheren voor meer informatie over het werken met query's.

SQL Warehouse

Een rekenresource waarop u SQL-query's uitvoert. Er zijn drie typen SQL-warehouses: Klassiek, Pro en Serverloos. Azure Databricks raadt het gebruik van serverloze magazijnen aan waar beschikbaar. Zie SQL Warehouse-typen om beschikbare functies voor elk magazijntype te vergelijken.

Querygeschiedenis

Een lijst met uitgevoerde query's en de bijbehorende prestatiekenmerken. Met querygeschiedenis kunt u queryprestaties bewaken, zodat u knelpunten kunt identificeren en queryruntimes kunt optimaliseren. Bekijk de querygeschiedenis.

Visualisatie

Een grafische presentatie van het resultaat van het uitvoeren van een query. Zie Visualisaties in Databricks-notebooks.

Dashboard

Een presentatie van gegevensvisualisaties en commentaar. U kunt dashboards gebruiken om automatisch rapporten te verzenden naar iedereen in uw Azure Databricks-account. Gebruik de Databricks Assistant om visualisaties te bouwen op basis van prompts voor natuurlijke taal. Zie Dashboards. U kunt ook een dashboard maken op basis van een notitieblok. Zie Dashboards in notitieblokken.

Zie Verouderde dashboards voor verouderde dashboards.

Belangrijk

Databricks raadt aan AI/BI-dashboards (voorheen Lakeview-dashboards) te gebruiken. Eerdere versies van dashboards, voorheen Databricks SQL-dashboards genoemd, worden nu verouderde dashboards genoemd. Databricks raadt niet aan om nieuwe verouderde dashboards te maken.
Verouderde dashboards converteren met behulp van het migratiehulpprogramma of REST API. Zie Een verouderd dashboard klonen naar een AI/BI-dashboard voor instructies over het gebruik van het ingebouwde hulpprogramma voor migratie. Zie dashboardzelfstudies voor zelfstudies over het maken en beheren van dashboards met behulp van de REST API.

Delen via

Azure Databricks-concepten

Accounts en werkruimten

Facturering: Databricks-eenheden (DBU's)

Verificatie en autorisatie

User

Service-principal

Groep

Toegangsbeheerlijst (ACL)

Persoonlijk toegangstoken (PAT)

Azure Databricks-interfaces

Gebruikersinterface

REST-API

SQL REST API

CLI

Gegevensbeheer

Unity-catalogus

DBFS-hoofdmap

Catalogusverkenner

Database

Tabel

Delta-tabel

Metastore

Berekeningsbeheer

Cluster

Groep

Databricks Runtime

Werkstromen

Projecten

Pipelines

Workload

Context voor uitvoering

Data-engineering

Werkplek

Notebook

Bibliotheek

Git-map (voorheen opslagplaatsen)

AI + Machine Learning

Mozaïek AI

Machine learning-runtime

Experiment

Functies

GenAI-modellen

Modelregister

Modellering

Datawarehousing

Query

SQL Warehouse

Querygeschiedenis

Visualisatie

Dashboard

Feedback

Aanvullende resources