Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Databricks biedt Lakeflow, een end-to-end oplossing voor data engineering waarmee data engineers, softwareontwikkelaars, SQL-ontwikkelaars, analisten en gegevenswetenschappers hoogwaardige gegevens kunnen leveren voor downstreamanalyses, AI en operationele toepassingen. Lakeflow is een uniforme oplossing voor opname, transformatie en indeling van uw gegevens en omvat Lakeflow Connect, declaratieve pijplijnen en Lakeflow-taken.
Lakeflow Connect
Lakeflow Connect vereenvoudigt gegevensopname met connectors voor populaire bedrijfstoepassingen, databases, cloudopslag, berichtenbussen en lokale bestanden. Zie Lakeflow Connect.
Eigenschap | Beschrijving |
---|---|
Beheerde connectors | Beheerde connectors bieden een eenvoudige gebruikersinterface en een op configuratie gebaseerde opnameservice met minimale operationele overhead, zonder dat u de onderliggende Lakeflow Declarative Pipelines-API's en infrastructuur hoeft te gebruiken. |
Standaardconnectors | Standaardconnectors bieden de mogelijkheid om gegevens uit een breder scala aan gegevensbronnen te benaderen vanuit uw Lakeflow declaratieve pijplijnen of andere query's. |
Declaratieve pijplijnen van Lakeflow
Lakeflow-declaratieve pijplijnen is een declaratief framework dat de complexiteit van het bouwen en beheren van efficiƫnte batch- en streaminggegevenspijplijnen verlaagt. Declaratieve pijplijnen van Lakeflow worden uitgevoerd op de databricks-runtime die is geoptimaliseerd voor prestaties. Daarnaast orkestreren Lakeflow-declaratieve pijplijnen automatisch de uitvoering van stromen, sinks, streamingtabellen en gerealiseerde weergaven door ze in te kapselen en als een pijplijn uit te voeren. Zie declaratieve pijplijnen van Lakeflow.
Eigenschap | Beschrijving |
---|---|
Stromen | Gegevensstromen verwerken gegevens in Lakeflow Declarative Pipelines. De stromen-API maakt gebruik van dezelfde DataFrame-API als Apache Spark en Structured Streaming. Een gegevensstroom kan schrijven naar streamingtabellen en sinks, zoals een Kafka-onderwerp, met behulp van streaming-semantiek, of naar een gematerialiseerde weergave schrijven met behulp van batch-semantiek. |
Streamingtabellen | Een streamingtabel is een Delta-tabel met extra ondersteuning voor streaming of incrementele gegevensverwerking. Het fungeert als een doel voor een of meer stromen in Lakeflow Declarative Pipelines. |
gematerialiseerde weergaven | Een gematerialiseerde weergave is een weergave met gecachte resultaten voor snellere toegang. Een gerealiseerde weergave fungeert als een doel voor Lakeflow-declaratieve pijplijnen. |
Wasbakken | Declaratieve pijplijnen van Lakeflow ondersteunen externe gegevenssinks als doelen. Deze sinks kunnen streamingservices voor gebeurtenissen bevatten, zoals Apache Kafka of Azure Event Hubs, evenals externe tabellen die worden beheerd door Unity Catalog. |
Lakeflow Banen
Lakeflow Jobs bieden betrouwbare coƶrdinatie en productiemonitoring voor elke gegevens- en AI-werklast. Een taak kan bestaan uit een of meer taken die notebooks, pijplijnen, beheerde connectors, SQL-query's, machine learning-training en modelimplementatie en -deductie uitvoeren. Taken ondersteunen ook aangepaste controlestroomlogica, zoals vertakkingen met if/else-instructies en loops met for each instructies. Zie Lakeflow Jobs.
Eigenschap | Beschrijving |
---|---|
Banen | Taken zijn de primaire bron voor orkestratie. Ze vertegenwoordigen een proces dat u op geplande basis wilt uitvoeren. |
taken | Een specifieke werkeenheid binnen een taak. Er zijn verschillende taaktypen die u een scala aan opties bieden die binnen een taak kunnen worden uitgevoerd. |
Besturing in processen | Met controlestroomtaken kunt u bepalen of u andere taken wilt uitvoeren of de volgorde van taken die moeten worden uitgevoerd. |
Databricks Runtime voor Apache Spark
Databricks Runtime is een betrouwbare en prestatiegeoptimeerde rekenomgeving voor het uitvoeren van Spark-workloads, waaronder batch- en streamingbewerkingen. Databricks Runtime biedt Photon, een krachtige systeemeigen query-engine van Databricks die vectorisatie gebruikt, en verschillende infrastructuuroptimalisaties, zoals autoscaling. U kunt uw Spark- en Structured Streaming-workloads uitvoeren op de Databricks Runtime door uw Spark-programma's te bouwen als notebooks, JAR's of Python-wielen. Zie Databricks Runtime voor Apache Spark.
Eigenschap | Beschrijving |
---|---|
Apache Spark op Databricks | Spark vormt het hart van het Databricks Data Intelligence Platform. |
Gestructureerd streamen | Structured Streaming is de nagenoeg realtime verwerkingsengine van Spark voor streaming-gegevens. |
Wat is er gebeurd met Delta Live Tables (DLT)?
Het product dat voorheen bekend stond als Delta Live Tables (DLT) heet nu Lakeflow Declarative Pipelines. Er is geen migratie vereist om declaratieve pijplijnen van Lakeflow te gebruiken.
Opmerking
Er zijn nog steeds enkele verwijzingen naar de DLT-naam in Databricks. De klassieke SKU's voor Lakeflow-declaratieve pijplijnen beginnen nog steeds met DLT
en API's met DLT
in de naam zijn niet gewijzigd.
Aanvullende bronnen
- Data engineering-concepten beschrijven concepten van data engineering in Azure Databricks.
- Delta Lake is de geoptimaliseerde opslaglaag die de basis biedt voor tabellen in een lakehouse in Azure Databricks.
- Best practices voor data engineering biedt u inzicht in de best practices voor data engineering in Azure Databricks.
- Databricks-notebooks zijn een populair hulpprogramma voor samenwerking en ontwikkeling.
- Databricks SQL beschrijft het gebruik van SQL-query's en BI-hulpprogramma's in Azure Databricks.
- Databricks Mosaic AI beschrijft het ontwerpen van machine learning-oplossingen.