Datateknik med Databricks

Databricks tillhandahåller Lakeflow, en datatekniklösning från slutpunkt till slutpunkt som ger datatekniker, programvaruutvecklare, SQL-utvecklare, analytiker och dataforskare möjlighet att leverera data av hög kvalitet för nedströmsanalys, AI och operativa program. Lakeflow är en enhetlig lösning för inmatning, transformering och orkestrering av dina data, och innehåller Lakeflow Connect, Lakeflow Spark Deklarativa pipelines och Lakeflow-jobb.

Lakeflow Connect

Lakeflow Connect förenklar datainmatning med anslutningsappar till populära företagsprogram, databaser, molnlagring, meddelandebussar och lokala filer. Se Lakeflow Connect.

Egenskap Beskrivning
Hanterade kopplingar Hanterade anslutningsappar tillhandahåller ett enkelt användargränssnitt och en konfigurationsbaserad inmatningstjänst med minimal driftsbelastning, utan att du behöver använda underliggande pipeline-API:er och infrastruktur.
Standardanslutningar Standardanslutningar ger möjlighet att komma åt data från ett bredare spektrum av datakällor inom dina pipelines eller andra förfrågningar.

Lakeflow Spark Deklarativa Pipelines (SDP)

Lakeflow Spark Declarative Pipelines, eller SDP, är ett deklarativt ramverk som minskar komplexiteten i att skapa och hantera batch och strömmande effektiva datapipelines. Lakeflow SDP utökas och är interoperabel med Apache Spark Declarativa Pipelines, samtidigt som den körs med den prestandaoptimerade Databricks Runtime. SDP samordnar automatiskt körningen av flöden, dataavledare, strömmande tabeller och materialiserade vyer genom att integrera och köra dem som en pipeline. Se Deklarativa pipelines för Lakeflow Spark.

Egenskap Beskrivning
Flöden Flöden bearbetar data i pipelines. Flödes-API:et använder samma DataFrame-API som Apache Spark och Structured Streaming. Ett flöde kan skriva till strömmande tabeller och mottagare, till exempel ett Kafka-ämne, med hjälp av strömmande semantik, eller skriva till en materialiserad vy med hjälp av batchsemantik.
Strömmande tabeller En strömningstabell är en Delta-tabell med ytterligare stöd för direktuppspelning eller inkrementell databearbetning. Den fungerar som ett mål för en eller flera flöden i pipelines.
Materialiserade vyer En materialiserad vy är en vy med cachelagrade resultat för snabbare åtkomst. En materialiserad vy fungerar som mål för pipelines.
Sjunker Pipelines stöder externa datamottagare som mål. Dessa mottagare kan omfatta händelseströmningstjänster, till exempel Apache Kafka eller Azure Event Hubs, externa tabeller som hanteras av Unity Catalog eller anpassade mottagare som definierats i Python.

Lakeflow-jobb

Lakeflow Jobs ger tillförlitlig orkestrering och produktionsövervakning för alla data- och AI-arbetsuppgifter. Ett jobb kan bestå av en eller flera uppgifter som kör notebook-filer, pipelines, hanterade anslutningsappar, SQL-frågor, maskininlärningsträning och modelldistribution och slutsatsdragning. Jobb har också stöd för logik för anpassat kontrollflöde, till exempel förgrening med if/else-instruktioner och loopar med for each-uttalanden. Se Lakeflow Jobs.

Egenskap Beskrivning
jobb Jobbs är den primära resursen för orkestrering. De representerar en process som du vill utföra enligt ett schema.
Uppgifter En specifik arbetsenhet inom ett jobb. Det finns en mängd olika aktivitetstyper som ger dig en rad alternativ som kan utföras i ett jobb.
Kontrollera flödet i jobb Med kontrollflödesuppgifter kan du styra om du vill köra andra uppgifter eller i vilken ordning aktiviteterna ska köras.

Databricks Runtime för Apache Spark

Databricks Runtime är en tillförlitlig och prestandaoptimerad beräkningsmiljö för att köra Spark-arbetsbelastningar, inklusive batch och strömning. Databricks Runtime tillhandahåller Photon, en databricks-intern vektoriserad frågemotor med höga prestanda och olika infrastrukturoptimeringar som autoskalning. Du kan köra dina Spark- och Structured Streaming-arbetsbelastningar på Databricks Runtime genom att skapa dina Spark-program som notebook-filer, JAR:er eller Python-hjul. Se Databricks Runtime för Apache Spark.

Egenskap Beskrivning
Apache Spark på Databricks Spark är kärnan i Databricks Data Intelligence Platform.
Strukturerad direktuppspelning Strukturerad direktuppspelning är Spark-motorn för bearbetning i nära realtid för strömmande data.

Vad hände med Delta Live Tables (DLT)?

Om du är bekant med Delta Live Tables (DLT) läser du Vad hände med Delta Live Tables (DLT)?.

Ytterligare resurser