Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Databricks tillhandahåller Lakeflow, en datatekniklösning från slutpunkt till slutpunkt som ger datatekniker, programvaruutvecklare, SQL-utvecklare, analytiker och dataforskare möjlighet att leverera data av hög kvalitet för nedströmsanalys, AI och operativa program. Lakeflow är en enhetlig lösning för inmatning, transformering och orkestrering av dina data, och innehåller Lakeflow Connect, Lakeflow Spark Deklarativa pipelines och Lakeflow-jobb.
Lakeflow Connect
Lakeflow Connect förenklar datainmatning med anslutningsappar till populära företagsprogram, databaser, molnlagring, meddelandebussar och lokala filer. Se Lakeflow Connect.
| Egenskap | Beskrivning |
|---|---|
| Hanterade kopplingar | Hanterade anslutningsappar tillhandahåller ett enkelt användargränssnitt och en konfigurationsbaserad inmatningstjänst med minimal driftsbelastning, utan att du behöver använda underliggande pipeline-API:er och infrastruktur. |
| Standardanslutningar | Standardanslutningar ger möjlighet att komma åt data från ett bredare spektrum av datakällor inom dina pipelines eller andra förfrågningar. |
Lakeflow Spark Deklarativa Pipelines (SDP)
Lakeflow Spark Declarative Pipelines, eller SDP, är ett deklarativt ramverk som minskar komplexiteten i att skapa och hantera batch och strömmande effektiva datapipelines. Lakeflow SDP utökas och är interoperabel med Apache Spark Declarativa Pipelines, samtidigt som den körs med den prestandaoptimerade Databricks Runtime. SDP samordnar automatiskt körningen av flöden, dataavledare, strömmande tabeller och materialiserade vyer genom att integrera och köra dem som en pipeline. Se Deklarativa pipelines för Lakeflow Spark.
| Egenskap | Beskrivning |
|---|---|
| Flöden | Flöden bearbetar data i pipelines. Flödes-API:et använder samma DataFrame-API som Apache Spark och Structured Streaming. Ett flöde kan skriva till strömmande tabeller och mottagare, till exempel ett Kafka-ämne, med hjälp av strömmande semantik, eller skriva till en materialiserad vy med hjälp av batchsemantik. |
| Strömmande tabeller | En strömningstabell är en Delta-tabell med ytterligare stöd för direktuppspelning eller inkrementell databearbetning. Den fungerar som ett mål för en eller flera flöden i pipelines. |
| Materialiserade vyer | En materialiserad vy är en vy med cachelagrade resultat för snabbare åtkomst. En materialiserad vy fungerar som mål för pipelines. |
| Sjunker | Pipelines stöder externa datamottagare som mål. Dessa mottagare kan omfatta händelseströmningstjänster, till exempel Apache Kafka eller Azure Event Hubs, externa tabeller som hanteras av Unity Catalog eller anpassade mottagare som definierats i Python. |
Lakeflow-jobb
Lakeflow Jobs ger tillförlitlig orkestrering och produktionsövervakning för alla data- och AI-arbetsuppgifter. Ett jobb kan bestå av en eller flera uppgifter som kör notebook-filer, pipelines, hanterade anslutningsappar, SQL-frågor, maskininlärningsträning och modelldistribution och slutsatsdragning. Jobb har också stöd för logik för anpassat kontrollflöde, till exempel förgrening med if/else-instruktioner och loopar med for each-uttalanden. Se Lakeflow Jobs.
| Egenskap | Beskrivning |
|---|---|
| jobb | Jobbs är den primära resursen för orkestrering. De representerar en process som du vill utföra enligt ett schema. |
| Uppgifter | En specifik arbetsenhet inom ett jobb. Det finns en mängd olika aktivitetstyper som ger dig en rad alternativ som kan utföras i ett jobb. |
| Kontrollera flödet i jobb | Med kontrollflödesuppgifter kan du styra om du vill köra andra uppgifter eller i vilken ordning aktiviteterna ska köras. |
Databricks Runtime för Apache Spark
Databricks Runtime är en tillförlitlig och prestandaoptimerad beräkningsmiljö för att köra Spark-arbetsbelastningar, inklusive batch och strömning. Databricks Runtime tillhandahåller Photon, en databricks-intern vektoriserad frågemotor med höga prestanda och olika infrastrukturoptimeringar som autoskalning. Du kan köra dina Spark- och Structured Streaming-arbetsbelastningar på Databricks Runtime genom att skapa dina Spark-program som notebook-filer, JAR:er eller Python-hjul. Se Databricks Runtime för Apache Spark.
| Egenskap | Beskrivning |
|---|---|
| Apache Spark på Databricks | Spark är kärnan i Databricks Data Intelligence Platform. |
| Strukturerad direktuppspelning | Strukturerad direktuppspelning är Spark-motorn för bearbetning i nära realtid för strömmande data. |
Vad hände med Delta Live Tables (DLT)?
Om du är bekant med Delta Live Tables (DLT) läser du Vad hände med Delta Live Tables (DLT)?.
Ytterligare resurser
- Begrepp inom datateknik beskriver begrepp inom datateknik i Azure Databricks.
- Delta Lake är det optimerade lagringslagret som utgör grunden för tabeller i ett lakehouse i Azure Databricks.
- Metodtips för datateknik lär dig om metodtips för datateknik i Azure Databricks.
- Databricks notebooks är ett populärt verktyg för samarbete och utveckling.
- Databricks SQL beskriver hur du använder SQL-frågor och BI-verktyg i Azure Databricks.
- Databricks Mosaic AI beskriver hur du utformar maskininlärningslösningar.