Sdílet prostřednictvím


Příprava dat pomocí Databricks

Databricks poskytuje Lakeflow, komplexní řešení pro přípravu dat, které umožňuje datovým inženýrům, vývojářům softwaru, vývojářům SQL, analytikům a datovým vědcům poskytovat vysoce kvalitní data pro následné analýzy, AI a provozní aplikace. Lakeflow je jednotné řešení pro příjem, transformaci a orchestraci vašich dat a zahrnuje Lakeflow Connect, Lakeflow Spark Deklarativní kanály a úlohy Lakeflow.

Lakeflow Connect

Lakeflow Connect zjednodušuje příjem dat pomocí konektorů pro oblíbené podnikové aplikace, databáze, cloudové úložiště, sběrnice zpráv a místní soubory. Viz Lakeflow Connect.

Vlastnost Popis
Spravované konektory Spravované konektory poskytují jednoduché uživatelské rozhraní a službu příjmu dat založenou na konfiguraci s minimální provozní režií, aniž byste museli používat základní rozhraní API a infrastrukturu kanálů.
Standardní konektory Standardní konektory poskytují možnost přistupovat k datům z širšího rozsahu zdrojů dat přímo z vašich pipelinek nebo jiných dotazů.

Deklarativní kanály Sparku pro Lakeflow (SDP)

Deklarativní kanály Sparku pro Lakeflow neboli SDP je deklarativní architektura, která snižuje složitost sestavování a správy efektivních dávkových a streamovaných datových kanálů. Lakeflow SDP rozšiřuje a je interoperabilní s deklarativními kanály Apache Sparku a běží na modulu Databricks Runtime optimalizovaném pro výkon. SDP automaticky integruje provádění toků, jímek, streamovacích tabulek a materializovaných pohledů jejich zapouzdřením a spuštěním jako pipeline. Viz deklarativní kanály Sparku Lakeflow.

Vlastnost Popis
Teče Toky zpracovávají data v potrubí. Rozhraní API toků používá stejné rozhraní API datového rámce jako Apache Spark a strukturované streamování. Tok může zapisovat do streamovaných tabulek a datových úložišť, jako je téma Kafka, pomocí streamové sémantiky, nebo může zapisovat do materializovaného zobrazení pomocí sémantiky dávkového zpracování.
tabulky streamování Streamovací tabulka je tabulka Delta s další podporou streamování nebo přírůstkového zpracování dat. Funguje jako cíl pro jeden nebo více toků v potrubích.
materializované pohledy Materializované zobrazení je zobrazení s výsledky uloženými v mezipaměti pro rychlejší přístup. Materializované zobrazení funguje jako cíl pro kanály.
umyvadla Potrubí podporují externí datová úložiště jako cílové body. Tyto jímky můžou zahrnovat služby streamování událostí, jako jsou Apache Kafka nebo Azure Event Hubs, a také externí tabulky spravované katalogem Unity.

Úlohy Lakeflow

Úlohy Lakeflow poskytují spolehlivou orchestraci a monitorování pro datové a AI úlohy. Úloha se může skládat z jedné nebo více úloh, které spouštějí poznámkové bloky, kanály, spravované konektory, dotazy SQL, trénování strojového učení a nasazení modelu a odvozování. Úlohy také podporují vlastní logiku řídicího toku, například větvení pomocí příkazů if/else a smyčky s příkazy for each. Podívejte se na Úlohy Lakeflow.

Vlastnost Popis
Úlohy Úlohy jsou primárním zdrojem pro orchestraci. Představují proces, který chcete provést podle plánu.
Úlohy Konkrétní jednotka práce v rámci úlohy. Existuje celá řada typů úkolů, které poskytují řadu možností, které je možné provést v rámci úlohy.
Tok řízení v úlohách Úlohy toku řízení umožňují řídit, jestli se mají spouštět jiné úkoly, nebo pořadí úkolů, které se mají spustit.

Databricks Runtime pro Apache Spark

Databricks Runtime je spolehlivé a výkonově optimalizované výpočetní prostředí pro spouštění úloh Sparku, včetně dávek a streamování. Databricks Runtime poskytuje Photon, vysoce výkonný modul dotazů nativní pro Databricks a různé optimalizace infrastruktury, jako je automatické škálování. Úlohy Sparku a strukturovaného streamování můžete spouštět v prostředí Databricks Runtime vytvořením programů Spark jako poznámkových bloků, JARů nebo Python wheelů. Viz Databricks Runtime pro Apache Spark.

Vlastnost Popis
Apache Spark na Databricks Spark je jádrem platformy Databricks Data Intelligence.
Strukturované streamování Strukturované streamování je modul zpracování Sparku téměř v reálném čase pro streamovaná data.

Co se stalo s živými tabulkami Delta (DLT)?

Pokud znáte tabulky Delta Live (DLT), přečtěte si téma Co se stalo s tabulkami Delta Live Tables (DLT)?.

Další zdroje informací