Opsætning og konfiguration af et Azure Databricks-miljø

Hurtigt overblik

Byg et solidt fundament i Azure Databricks ved at forstå dets arkitektur, integrationer, beregningsmuligheder og dataorganiseringsmuligheder. Lær, hvordan Azure Databricks tilbyder en samlet platform til dataengineering, analyse og AI-arbejdsbelastninger i skyen.

I denne læringsvej vil du udforske grundprincipperne i Azure Databricks og hvordan det passer ind i det moderne dataplatform-økosystem. Du starter med at provisionere arbejdsområder og forstå kernearbejdsbelastninger, og derefter dykke ned i de arkitektoniske koncepter, der adskiller kontrol- og beregningsplaner. Du vil opdage, hvordan Azure Databricks integreres problemfrit med Microsoft Fabric, Power BI, Visual Studio Code og andre Microsoft-tjenester for at skabe omfattende løsninger. Du lærer at vælge og konfigurere de rigtige compute-ressourcer til dine arbejdsbelastninger og optimere både for ydeevne og omkostninger. Endelig mestrer du Unity Catalogs organisationsstruktur for effektivt at kunne administrere dine dataaktiver. Til sidst har du den grundlæggende viden, der skal til for at bygge skalerbare dataløsninger på Azure Databricks.

Forudsætninger

  • Grundlæggende viden om dataanalysekoncepter
  • Grundlæggende forståelse af cloud-lagringskoncepter
  • Fortrolighed med SQL og principper for dataorganisering

Moduler i dette læringsforløb

Azure Databricks er en cloudtjeneste, der leverer en skalerbar platform til dataanalyse ved hjælp af Apache Spark.

Azure Databricks-arkitekturen adskiller kontrol- og beregningsplan, samtidig med at ressourcer organiseres gennem en hierarkisk struktur. Dette modul undersøger, hvordan kontohierarkiet fungerer, forskellene mellem serverløse og klassiske computeplaner, samt de forskellige lagringsmuligheder, herunder standardlagring, ekstern lagring og Unity Catalog managed storage til organisering og styring af dine data.

Azure Databricks integreres med flere Microsoft-tjenester for at levere end-to-end dataengineering, analyse og AI-funktioner. Dette modul udforsker, hvordan Azure Databricks arbejder sammen med Microsoft Fabric, Power BI, Visual Studio Code, Power Platform, Copilot Studio, Microsoft Purview og Microsoft Foundry for at muliggøre omfattende løsninger, der kombinerer data lakehouse-funktioner med business intelligence, applikationsudvikling og samtalebaseret AI.

Azure Databricks tilbyder flere beregningsmuligheder optimeret til forskellige arbejdsbelastninger. Dette modul undersøger, hvordan man vælger den rigtige computetype, konfigurerer performance-indstillinger, administrerer adgangstilladelser og installerer biblioteker. Du lærer, hvornår du skal bruge serverless versus klassisk compute, hvordan du optimerer klynger for omkostninger og ydeevne, samt bedste praksis for at sikre compute-ressourcer.

Unity Catalogs tre-lags navnerum – kataloger, skemaer og objekter – giver et fleksibelt fundament for organisering af dataaktiver, samtidig med at centraliseret styring opretholdes. Dette modul undersøger, hvordan man opretter kataloger til miljøisolering, organiserer skemaer inden for disse kataloger og opretter tabeller, visninger og volumener for strukturerede og ustrukturerede data. Du vil lære at implementere fremmede kataloger til adgang til eksterne databaser, anvende effektive navngivningskonventioner og konfigurere AI/BI Genie-instruktioner for at forbedre dataopdagbarheden.