Datavägledning

Databricks Data Intelligence Platform gör det möjligt för datautövare i hela organisationen att samarbeta och produktionsanpassa datalösningar med hjälp av delade, säkert styrda datatillgångar och verktyg.

Den här artikeln hjälper dig att identifiera rätt startpunkt för ditt användningsfall.

Många uppgifter i Azure Databricks kräver utökade behörigheter. Många organisationer begränsar dessa utökade behörigheter till ett litet antal användare eller team. Den här artikeln skiljer åtgärder som kan utföras av de flesta arbetsyteanvändare från åtgärder som är begränsade till privilegierade användare.

Arbetsyteadministratörer kan hjälpa dig att avgöra om du ska begära åtkomst till tillgångar eller begära utökade behörigheter.

Hitta och komma åt data

Det här avsnittet innehåller en kort översikt över uppgifter som hjälper dig att identifiera tillgängliga datatillgångar. De flesta av dessa uppgifter förutsätter att en administratör har konfigurerat behörigheter för datatillgångar. Se Konfigurera dataåtkomst.

Funktionsområde Resources
Dataidentifiering En mer detaljerad översikt över dataidentifieringsuppgifter finns i Identifiera data.
Catalogs Kataloger är det översta objektet i datastyrningsmodellen för Unity Catalog. Använd Katalogutforskaren för att hitta tabell, vyer och andra datatillgångar. Se Utforska databasobjekt.
Ansluten lagring Om du har åtkomst till beräkningsresurser kan du använda inbyggda kommandon för att utforska filer i ansluten lagring. Se Utforska lagring och hitta datafiler.
Ladda upp lokala filer Som standard har användarna behörighet att ladda upp små datafiler från din lokala dator, till exempel CSV:er. Se Skapa eller ändra en tabell med filuppladdning.

Arbeta med data

Det här avsnittet innehåller en översikt över vanliga datauppgifter och de verktyg som används för att utföra dessa uppgifter.

För alla uppgifter som beskrivs måste användarna ha rätt behörighet till verktyg, beräkningsresurser, data och andra artefakter på arbetsytan. Se Konfigurera dataåtkomst och Konfigurera arbetsytor och infrastruktur.

Funktionsområde Resources
Databasobjekt Förutom tabeller och vyer använder Azure Databricks andra skyddsbara databasobjekt, till exempel volymer, för att styra data på ett säkert sätt. Se Databasobjekt i Azure Databricks.
Databehörigheter Unity Catalog styr alla läs- och skrivåtgärder i aktiverade arbetsytor. Du måste ha tillräcklig behörighet för att slutföra dessa åtgärder. Se Skyddsbara objekt i Unity Catalog.
ETL Arbetsbelastningar för extrahering, transformering och inläsning (ETL) är några av de vanligaste användningsområdena för Apache Spark och Azure Databricks, och de flesta av plattformen har funktioner som skapats och optimerats för ETL. Se Självstudie: Skapa en ETL-pipeline med Lakeflow Spark deklarativa pipelines.
Queries
Paneler & insikter
  • Med AI/BI-instrumentpaneler kan du enkelt extrahera och visualisera insikter i användargränssnittet. Se även Dashboards.
  • Genie spaces använder textprompter för att besvara frågor och ge insikter som informeras av dina data. Se Vad är ett AI/BI Genie-utrymme.
Ingest
  • Lakeflow Connect matar in data från populära externa system. Se Hanterade anslutningar i Lakeflow Connect.
  • Auto Loader kan användas med Lakeflow Spark Deklarativa pipelines eller strukturerade strömningsjobb för inkrementell dataintagning från molnobjektlagring. Se Vad är Auto Loader?.
  • Du kan använda Lakeflow Spark Deklarativa Pipelines eller Strukturerad Direktuppspelning för att läsa in data från meddelandeköer, inklusive Kafka. Se Fråga efter strömmande data.
Transformations Azure Databricks använder vanlig syntax och verktyg för transformeringar som varierar i komplexitet från SQL CTAS-instruktioner till direktuppspelningsprogram i nära realtid.
AI och maskininlärning Databricks Data Intelligence Platform tillhandahåller en uppsättning verktyg för datavetenskap, maskininlärning och AI-program. Se AI och maskininlärning på Databricks.

Konfigurera dataåtkomst

De flesta Azure Databricks-arbetsytor förlitar sig på en arbetsyteadministratör eller andra power-användare för att konfigurera anslutningar till externa datakällor och framtvinga behörigheter till datatillgångar baserat på teammedlemskap, region eller roller. Det här avsnittet innehåller en översikt över vanliga uppgifter för att konfigurera och kontrollera data ess som kräver förhöjd behörighet.

Note

Innan du begär utökade behörigheter för att konfigurera en ny anslutning till en datakälla kontrollerar du om du bara saknar behörigheter för en befintlig anslutning, katalog eller tabell. Om en datakälla inte är tillgänglig kontaktar du din organisation för principen för att lägga till nya data på din arbetsyta.

Funktionsområde Resources
Unity-katalog
  • Unity Catalog driver de datastyrningsfunktioner som är inbyggda i Databricks Data Intelligence Platform. Se Vad är Unity Catalog?.
  • Databricks-kontoadministratörer, arbetsyteadministratörer och metaarkivadministratörer har standardbehörighet för att hantera Unity Catalog-databehörigheter för användare. Se Hantera privilegier i Unity Catalog.
Anslutningar och åtkomst
Sharing
  • Delta Sharing är kärnan i Azure Databricks plattform för säker datadelning, som omfattar Databricks Marketplace och Clean Rooms. Se Dela data och AI-tillgångar på ett säkert sätt med användare i andra organisationer.
  • Administratörer kan skapa nya kataloger. Kataloger ger en abstraktion på hög nivå för dataisolering och kan antingen kopplas till enskilda arbetsytor eller delas över alla arbetsytor i ett konto. Se Skapa kataloger.- AI/BI-instrumentpaneler uppmuntrar ägare att inkludera sina autentiseringsuppgifter när de publicerar, så att tittarna kan få insikter från delade resultat. För detaljer, se Dela en instrumentpanel.

Konfigurera arbetsytor och infrastruktur

Det här avsnittet innehåller en översikt över vanliga uppgifter som är associerade med administration av arbetsytetillgångar och infrastruktur. Arbetsytetillgångar är brett definierade och innehåller följande:

  • Beräkningsresurser: Beräkningsresurser omfattar interaktiva kluster för alla syften, SQL-lager, jobbkluster och pipelineberäkning. En användare eller arbetsbelastning måste ha behörighet att ansluta till beräkningsresurser som körs för att kunna bearbeta angiven logik.

    Note

    Användare som inte har åtkomst till att ansluta till några beräkningsresurser har mycket begränsade funktioner i Azure Databricks.

  • Plattformsverktyg: Databricks Data Intelligence Platform tillhandahåller en uppsättning verktyg som är skräddarsydda för olika användningsfall och roller, till exempel anteckningsböcker, Databricks SQL och Mosaic AI. Administratörer kan anpassa inställningar som innehåller standardbeteenden, valfria funktioner och användaråtkomst för många av dessa verktyg.

  • Artefakter: Artefakter inkluderar anteckningsböcker, frågor, dashboards, filer, bibliotek, pipelines och jobb. Artefakter innehåller kod och konfigurationer som användarna skapar för att utföra önskade åtgärder på sina data.

Important

Den användare som skapar en arbetsytetillgång tilldelas rollen ägare som standard. För de flesta tillgångar kan ägare bevilja behörigheter till alla andra användare eller grupper på arbetsytan.

För att säkerställa att data och kod är säkra rekommenderar Databricks att du konfigurerar ägarrollen för alla artefakter och beräkningsresurser som distribueras till en produktionsarbetsyta.

Funktionsområde Resources
Rättigheter för arbetsyta Behörigheter för arbetsytor omfattar grundläggande åtkomst till arbetsytor, åtkomst till Databricks SQL och obegränsad skapande av kluster. Se Hantera rättigheter.
Åtkomstprinciper för beräkningsresurser &
  • De flesta kostnaderna för Azure Databricks är för beräkningsresurser. Det är viktigt att kontrollera vilka användare som har möjlighet att konfigurera, distribuera, starta och använda olika resurser för att kontrollera kostnaderna. Se Översikt över klassisk beräkning.
  • Beräkningsprinciper fungerar tillsammans med arbetsyteberäkningsrättigheter för att säkerställa att berättigade användare endast distribuerar beräkningsresurser enligt angivna konfigurationsregler. Se Skapa och hantera beräkningsprinciper.
  • Administratörer kan konfigurera standardbeteenden, dataåtkomstprinciper och användaråtkomst till SQL-lager. Se administratörsinställningar för SQL-lager.
Plattformsverktyg Använd administratörskonsolen för att konfigurera beteenden som sträcker sig från att anpassa arbetsytans utseende till att aktivera eller inaktivera produkter och funktioner. Se Hantera din arbetsyta.
ACL:er för arbetsyta Åtkomstkontrollistor för arbetsytor styr hur användare och grupper kan interagera med arbetsytetillgångar, inklusive beräkningsresurser, kodartefakter och jobb. Se Åtkomstkontrollistor.

Produktionsanpassa arbetsbelastningar

Alla Azure Databricks-produkter är byggda för att påskynda vägen från utveckling till produktion och för skalning och stabilitet. Det här avsnittet innehåller en kort introduktion till den verktygssvit som rekommenderas för att sätta arbetsflöden i produktion.

Funktionsområde Resources
ETL-pipelines Lakeflow Spark Deklarativa pipelines ger en deklarativ syntax för att skapa och produktionsanpassa ETL-pipelines. Se Deklarativa pipelines för Lakeflow Spark.
Orchestration Med jobb kan du definiera komplexa arbetsflöden med beroenden, utlösare och scheman. Se Lakeflow Jobs.
CI/CD Databricks-tillgångspaket gör det enkelt att hantera och distribuera data, tillgångar och artefakter på arbetsytor. Se Vad är Databricks-tillgångspaket?.