Azure Databricks-begrepp

Artikel
06/27/2024

Den här artikeln beskriver grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks effektivt.

Konton och arbetsytor

I Azure Databricks är en arbetsyta en Azure Databricks-distribution i molnet som fungerar som en miljö där ditt team kan komma åt Databricks-tillgångar. Din organisation kan välja att antingen ha flera arbetsytor eller bara en, beroende på dess behov.

Ett Azure Databricks-konto representerar en enda entitet som kan innehålla flera arbetsytor. Konton som är aktiverade för Unity Catalog kan användas för att hantera användare och deras åtkomst till data centralt över alla arbetsytor i kontot.

Fakturering: Databricks-enheter (DBUs)

Azure Databricks-fakturor baserat på Databricks-enheter (DBUs), som är enheter för bearbetningskapacitet per timme baserat på vm-instanstyp.

Se prissättningssidan för Azure Databricks.

Autentisering och auktorisering

I det här avsnittet beskrivs begrepp som du behöver veta när du hanterar Azure Databricks-identiteter och deras åtkomst till Azure Databricks-tillgångar.

User

En unik person som har åtkomst till systemet. Användaridentiteter representeras av e-postadresser. Se Hantera användare.

Tjänstens huvudnamn

En tjänstidentitet för användning med jobb, automatiserade verktyg och system som skript, appar och CI/CD-plattformar. Tjänstens huvudnamn representeras av ett program-ID. Läs mer i Hantera tjänstens huvudnamn.

Grupp

En samling identiteter. Grupper förenklar identitetshantering, vilket gör det enklare att tilldela åtkomst till arbetsytor, data och andra skyddsbara objekt. Alla Databricks-identiteter kan tilldelas som medlemmar i grupper. Se Hantera grupper.

Åtkomstkontrollista (ACL)

En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts på tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd. Se Åtkomstkontrollistor.

Personlig åtkomsttoken (PAT)

En personlig åtkomsttoken är en sträng som används för att autentisera REST API-anrop, teknikpartneranslutningar och andra verktyg. Mer information finns i autentisering med personlig åtkomsttoken i Azure Databricks.

Microsoft Entra-ID-token (tidigare Azure Active Directory) kan också användas för att autentisera till REST-API:et.

Azure Databricks-gränssnitt

I det här avsnittet beskrivs gränssnitten för åtkomst till dina tillgångar i Azure Databricks.

UI

Azure Databricks-användargränssnittet är ett grafiskt gränssnitt för att interagera med funktioner, till exempel arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.

REST-API

Databricks REST API tillhandahåller slutpunkter för att ändra eller begära information om Azure Databricks-konto- och arbetsyteobjekt. Se referens för konto och arbetsytereferens.

SQL REST API

Med SQL REST API kan du automatisera uppgifter på SQL-objekt. Se SQL API.

CLI

Databricks CLI finns på GitHub. CLI bygger på Databricks REST API.

Datahantering

I det här avsnittet beskrivs de logiska objekt som lagrar data som du matar in i maskininlärningsalgoritmer och som du utför analys på. Dessutom beskrivs användargränssnittet på plattformen för att utforska och hantera dataobjekt.

Unity Catalog

Unity Catalog är en enhetlig styrningslösning för data- och AI-tillgångar på Azure Databricks som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifiering i Databricks-arbetsytor. Se Vad är Unity Catalog?.

DBFS-rot

Viktigt!

Lagring och åtkomst till data med DBFS-rot- eller DBFS-monteringar är ett inaktuellt mönster och rekommenderas inte av Databricks. I stället rekommenderar Databricks att du använder Unity Catalog för att hantera åtkomst till alla data. Se Vad är Unity Catalog?.

DBFS-roten är en lagringsplats som är tillgänglig för alla användare som standard. Se Vad är DBFS?.

Katalogutforskaren

Med Catalog Explorer kan du utforska och hantera data och AI-tillgångar, inklusive scheman (databaser), tabeller, modeller, volymer (icke-tabelldata), funktioner och registrerade ML-modeller. Du kan använda den för att hitta dataobjekt och ägare, förstå datarelationer mellan tabeller och hantera behörigheter och delning. Se Vad är Katalogutforskaren?.

Databas

En samling dataobjekt, till exempel tabeller eller vyer och funktioner, som är ordnade så att de enkelt kan nås, hanteras och uppdateras. Se Vad är scheman i Azure Databricks?

Register

En representation av strukturerade data. Du kör frågor mot tabeller med Apache Spark SQL- och Apache Spark-API:er. Se Vad är en tabell?.

Deltatabell

Som standard är alla tabeller som skapats i Azure Databricks Delta-tabeller. Deltatabeller baseras på Projektet med öppen källkod i Delta Lake, ett ramverk för högpresterande ACID-tabelllagring över molnobjektlager. En Delta-tabell lagrar data som en katalog med filer i molnobjektlagring och registrerar tabellmetadata till metaarkivet i en katalog och ett schema.

Läs mer om tekniker som är märkta som Delta.

Metaarkiv

Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som krävs för att läsa och skriva data och motsvarande filer där data lagras. Se Metaarkiv

I varje Azure Databricks-distribution finns ett centralt Hive-metaarkiv som kan nås av alla kluster för att bevara tabellmetadata. Du kan också använda ett befintligt externt Hive-metaarkiv.

Beräkningshantering

I det här avsnittet beskrivs begrepp som du behöver veta för att köra beräkningar i Azure Databricks.

Kluster

En uppsättning beräkningsresurser och konfigurationer där du kör notebook-filer och jobb. Det finns två typer av kluster: all-purpose och job. Se Beräkning.

Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST-API:et. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
Azure Databricks jobbschema skapar ett jobbkluster när du kör ett jobb på ett nytt jobbkluster och avslutar klustret när jobbet är slutfört. Du kan inte starta om ett jobbkluster.

Pool

En uppsättning inaktiva instanser som är redo att användas och som minskar tiden för klusterstart och automatisk skalning. När det är kopplat till en pool allokerar ett kluster sina drivrutins- och arbetsnoder från poolen. Se Referens för poolkonfiguration.

Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderar poolen genom att allokera nya instanser från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.

Databricks-körning

Uppsättningen kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Se Beräkning. Azure Databricks har följande körningar:

Databricks Runtime innehåller Apache Spark men lägger även till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarhet, prestanda och säkerhet för stordataanalys.
Databricks Runtime för Mašinsko učenje bygger på Databricks Runtime och tillhandahåller en fördefinierad maskininlärningsinfrastruktur som är integrerad med alla funktioner i Azure Databricks-arbetsytan. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.

Arbetsflöden

Ramverk för att utveckla och köra pipelines för databearbetning:

Jobb: En icke-interaktiv mekanism för att köra en notebook-fil eller ett bibliotek antingen omedelbart eller enligt schema.
Delta Live Tables: Ett ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines.

Se Introduktion till Azure Databricks-arbetsflöden.

Arbetsbelastning

Arbetsbelastning är den mängd bearbetningskapacitet som krävs för att utföra en uppgift eller grupp med uppgifter. Azure Databricks identifierar två typer av arbetsbelastningar: datateknik (jobb) och dataanalys (all-purpose).

Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks-jobbschemaläggaren skapar för varje arbetsbelastning.
Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon i en Azure Databricks-notebook-fil. Men att köra ett jobb på ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.

Körningskontext

Tillståndet för en REPL-miljö (read-eval-print loop) för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.

Datateknik

Datateknikverktyg underlättar samarbete mellan dataforskare, datatekniker, dataanalytiker och maskininlärningstekniker.

Arbetsyta

En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks-tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.

Notebook-fil

Ett webbaserat gränssnitt för att skapa arbetsflöden för datavetenskap och maskininlärning som kan innehålla runnable-kommandon, visualiseringar och narrativ text. Se Introduktion till Databricks-notebook-filer.

Bibliotek

Ett kodpaket som är tillgängligt för notebook-filen eller jobbet som körs i klustret. Databricks-runtimes innehåller många bibliotek, och du kan också ladda upp dina egna. Se Bibliotek.

Git-mapp (tidigare Repos)

En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats. Databricks Git-mappar integreras med Git för att tillhandahålla käll- och versionskontroll för dina projekt.

AI och maskininlärning

Databricks tillhandahåller en integrerad miljö från slutpunkt till slutpunkt med hanterade tjänster för utveckling och distribution av AI- och maskininlärningsprogram.

Mosaik-AI

Varumärket för produkter och tjänster från Databricks Mosaic AI Research, ett team av forskare och ingenjörer som ansvarar för Databricks största genombrott inom generativ AI. Mosaic AI-produkter innehåller ML- och AI-funktionerna i Databricks. Se Mosaikforskning.

Runtime för maskininlärning

För att hjälpa dig att utveckla ML- och AI-modeller tillhandahåller Databricks en Databricks Runtime för Mašinsko učenje, som automatiserar skapandet av beräkning med inbyggd maskininlärning och djupinlärningsinfrastruktur, inklusive de vanligaste ML- och DL-biblioteken. Den har också inbyggt, förkonfigurerat GPU-stöd, inklusive drivrutiner och stödbibliotek. Bläddra till information om de senaste runtime-versionerna från Databricks Runtime versionsanteckningar och kompatibilitet.

Experiment

En samling MLflow-körningar för träning av en maskininlärningsmodell. Se Ordna träningskörningar med MLflow-experiment.

Funktioner

Funktioner är en viktig komponent i ML-modeller. Ett funktionslager möjliggör funktionsdelning och identifiering i hela organisationen och säkerställer även att samma funktionsberäkningskod används för modellträning och slutsatsdragning. Se Vad är en funktionsbutik?.

GenAI-modeller

Databricks innehåller en uppsättning förkonfigurerade grundmodeller, som är stora språkmodeller som tränas för användning i en mängd olika användningsfall. Se Generativ AI och stora språkmodeller (LLM) på Azure Databricks.

AI-lekplats

En chattliknande miljö på arbetsytan där du kan testa, fråga och jämföra LLM:er. Se Chatta med LLM:er som stöds med AI Playground.

Modellregister

Databricks tillhandahåller en värdbaserad version av MLflow Model Registry i Unity Catalog. Modeller som registrerats i Unity Catalog ärver centraliserad åtkomstkontroll, ursprung och identifiering och åtkomst mellan arbetsytor. Se Hantera modelllivscykel i Unity Catalog.

Modellservering

Mosaic AI Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram. Med Mosaic AI Model Serving kan du distribuera dina egna modeller, grundmodeller eller tredjepartsmodeller som finns utanför Databricks. Se Modellservering med Azure Databricks.

Datalagerhantering

Datalager avser insamling och lagring av data från flera källor så att de snabbt kan nås för affärsinsikter och rapportering. Databricks SQL är en samling tjänster som ger datalagerfunktioner och prestanda till dina befintliga datasjöar. Se Vad är datalagerhantering i Azure Databricks?.

Fråga

En fråga är en giltig SQL-instruktion som gör att du kan interagera med dina data. Du kan skapa frågor med sql-redigeraren på plattformen eller ansluta med hjälp av en SQL-anslutningsapp, drivrutin eller API-verktyg. Mer information om hur du arbetar med frågor finns i Komma åt och hantera sparade frågor .

SQL-lager

En beräkningsresurs där du kör SQL-frågor. Det finns tre typer av SQL-lager: Klassisk, Pro och Serverlös. Azure Databricks rekommenderar att du använder serverlösa lager där det är tillgängligt. Se SQL-lagertyper för att jämföra tillgängliga funktioner för varje lagertyp.

Frågehistorik

En lista över körda frågor och deras prestandaegenskaper. Med frågehistorik kan du övervaka frågeprestanda, hjälpa dig att identifiera flaskhalsar och optimera frågekörningar. Se Frågehistorik.

Visualisering

En grafisk presentation av resultatet av att köra en fråga. Se Visualiseringar i Databricks-notebook-filer.

Instrumentpanel

En presentation av datavisualiseringar och kommentarer. Du kan använda instrumentpaneler för att automatiskt skicka rapporter till vem som helst i ditt Azure Databricks-konto. Använd Databricks Assistant för att hjälpa dig att skapa visualiseringar baserat på naturliga langauge-frågor. Se Instrumentpaneler. Du kan också skapa en instrumentpanel från en notebook-fil. Se Instrumentpaneler i notebook-filer. Äldre instrumentpaneler finns i Äldre instrumentpaneler.

Dela via