Datateknik med Databricks

Databricks tillhandahåller Lakeflow, en datatekniklösning från slutpunkt till slutpunkt som ger datatekniker, programvaruutvecklare, SQL-utvecklare, analytiker och dataforskare möjlighet att leverera data av hög kvalitet för nedströmsanalys, AI och operativa program. Lakeflow är en enhetlig lösning för inmatning, transformering och orkestrering av dina data, och innehåller Lakeflow Connect, Lakeflow Spark Deklarativa pipelines och Lakeflow-jobb.

Lakeflow Connect

Lakeflow Connect förenklar datainmatning med anslutningsappar till populära företagsprogram, databaser, molnlagring, meddelandebussar och lokala filer. Se Lakeflow Connect.

Egenskap	Beskrivning
Hanterade kopplingar	Hanterade anslutningsappar tillhandahåller ett enkelt användargränssnitt och en konfigurationsbaserad inmatningstjänst med minimal driftsbelastning, utan att du behöver använda underliggande pipeline-API:er och infrastruktur.
Standardanslutningar	Standardanslutningar ger möjlighet att komma åt data från ett bredare spektrum av datakällor inom dina pipelines eller andra förfrågningar.

Lakeflow Spark Deklarativa Pipelines (SDP)

Lakeflow Spark Declarative Pipelines, eller SDP, är ett deklarativt ramverk som minskar komplexiteten i att skapa och hantera batch och strömmande effektiva datapipelines. Lakeflow SDP utökas och är interoperabel med Apache Spark Declarativa Pipelines, samtidigt som den körs med den prestandaoptimerade Databricks Runtime. SDP samordnar automatiskt körningen av flöden, dataavledare, strömmande tabeller och materialiserade vyer genom att integrera och köra dem som en pipeline. Se Deklarativa pipelines för Lakeflow Spark.

Egenskap	Beskrivning
Flöden	Flöden bearbetar data i pipelines. Flödes-API:et använder samma DataFrame-API som Apache Spark och Structured Streaming. Ett flöde kan skriva till strömmande tabeller och mottagare, till exempel ett Kafka-ämne, med hjälp av strömmande semantik, eller skriva till en materialiserad vy med hjälp av batchsemantik.
Strömmande tabeller	En strömningstabell är en Delta-tabell med ytterligare stöd för direktuppspelning eller inkrementell databearbetning. Den fungerar som ett mål för en eller flera flöden i pipelines.
Materialiserade vyer	En materialiserad vy är en vy med cachelagrade resultat för snabbare åtkomst. En materialiserad vy fungerar som mål för pipelines.
Sjunker	Pipelines stöder externa datamottagare som mål. Dessa mottagare kan omfatta händelseströmningstjänster, till exempel Apache Kafka eller Azure Event Hubs, externa tabeller som hanteras av Unity Catalog eller anpassade mottagare som definierats i Python.

Lakeflow-jobb

Lakeflow Jobs ger tillförlitlig orkestrering och produktionsövervakning för alla data- och AI-arbetsuppgifter. Ett jobb kan bestå av en eller flera uppgifter som kör notebook-filer, pipelines, hanterade anslutningsappar, SQL-frågor, maskininlärningsträning och modelldistribution och slutsatsdragning. Jobb har också stöd för logik för anpassat kontrollflöde, till exempel förgrening med if/else-instruktioner och loopar med for each-uttalanden. Se Lakeflow Jobs.

Egenskap	Beskrivning
jobb	Jobbs är den primära resursen för orkestrering. De representerar en process som du vill utföra enligt ett schema.
Uppgifter	En specifik arbetsenhet inom ett jobb. Det finns en mängd olika aktivitetstyper som ger dig en rad alternativ som kan utföras i ett jobb.
Kontrollera flödet i jobb	Med kontrollflödesuppgifter kan du styra om du vill köra andra uppgifter eller i vilken ordning aktiviteterna ska köras.

Databricks Runtime för Apache Spark

Databricks Runtime är en tillförlitlig och prestandaoptimerad beräkningsmiljö för att köra Spark-arbetsbelastningar, inklusive batch och strömning. Databricks Runtime tillhandahåller Photon, en databricks-intern vektoriserad frågemotor med höga prestanda och olika infrastrukturoptimeringar som autoskalning. Du kan köra dina Spark- och Structured Streaming-arbetsbelastningar på Databricks Runtime genom att skapa dina Spark-program som notebook-filer, JAR:er eller Python-hjul. Se Databricks Runtime för Apache Spark.

Egenskap	Beskrivning
Apache Spark på Databricks	Spark är kärnan i Databricks Data Intelligence Platform.
Strukturerad direktuppspelning	Strukturerad direktuppspelning är Spark-motorn för bearbetning i nära realtid för strömmande data.

Vad hände med Delta Live Tables (DLT)?

Om du är bekant med Delta Live Tables (DLT) läser du Vad hände med Delta Live Tables (DLT)?.

Ytterligare resurser

Begrepp inom datateknik beskriver begrepp inom datateknik i Azure Databricks.
Delta Lake är det optimerade lagringslagret som utgör grunden för tabeller i ett lakehouse i Azure Databricks.
Metodtips för datateknik lär dig om metodtips för datateknik i Azure Databricks.
Databricks notebooks är ett populärt verktyg för samarbete och utveckling.
Databricks SQL beskriver hur du använder SQL-frågor och BI-verktyg i Azure Databricks.
Databricks Mosaic AI beskriver hur du utformar maskininlärningslösningar.

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-20

Dela via

Datateknik med Databricks

Lakeflow Connect

Lakeflow Spark Deklarativa Pipelines (SDP)

Lakeflow-jobb

Databricks Runtime för Apache Spark

Vad hände med Delta Live Tables (DLT)?

Ytterligare resurser

Feedback

Ytterligare resurser