Příprava dat pomocí Databricks

Databricks poskytuje Lakeflow, komplexní řešení pro přípravu dat, které umožňuje datovým inženýrům, vývojářům softwaru, vývojářům SQL, analytikům a datovým vědcům poskytovat vysoce kvalitní data pro následné analýzy, AI a provozní aplikace. Lakeflow je jednotné řešení pro ingestaci, transformaci a orchestraci vašich dat a zahrnuje Lakeflow Connect, kanály Lakeflow, Lakeflow Designer a úlohy Lakeflow.

Lakeflow Connect

Lakeflow Connect zjednodušuje příjem dat pomocí konektorů pro oblíbené podnikové aplikace, databáze, cloudové úložiště, sběrnice zpráv a místní soubory. Viz Lakeflow Connect.

Vlastnost	Popis
Spravované konektory	Spravované konektory poskytují jednoduché uživatelské rozhraní a službu příjmu dat založenou na konfiguraci s minimální provozní režií, aniž byste museli používat základní rozhraní API a infrastrukturu kanálů.
Standardní konektory	Standardní konektory poskytují možnost přistupovat k datům z širšího rozsahu zdrojů dat přímo z vašich pipelinek nebo jiných dotazů.

Kanály Lakeflow

Kanály Lakeflow snižují složitost vytváření a správy efektivních datových kanálů dávkových a streamovaných dat. Postaveno na deklarativních kanálech Apache Sparku™ (SDP), deklarativní rozhraní pro dávkové a streamovací kanály v SQL a Python, kanály Lakeflow běží v prostředí Databricks Runtime optimalizovaném pro výkon a zůstávají s ním interoperabilní. Kanál automaticky orchestruje provádění toků, jímek, streamovaných tabulek a materializovaných zobrazení. Viz kanály Lakeflow.

Vlastnost	Popis
Teče	Toky zpracovávají data v potrubí. Rozhraní API toků používá stejné rozhraní API datového rámce jako Apache Spark a strukturované streamování. Tok může zapisovat do streamovaných tabulek a datových úložišť, jako je téma Kafka, pomocí streamové sémantiky, nebo může zapisovat do materializovaného zobrazení pomocí sémantiky dávkového zpracování.
tabulky streamování	Streamovací tabulka je tabulka Delta s další podporou streamování nebo přírůstkového zpracování dat. Funguje jako cíl pro jeden nebo více toků v potrubích.
materializované pohledy	Materializované zobrazení je zobrazení s výsledky uloženými v mezipaměti pro rychlejší přístup. Materializované zobrazení funguje jako cíl pro kanály.
umyvadla	Potrubí podporují externí datová úložiště jako cílové body. Tyto jímky můžou zahrnovat služby streamování událostí, jako jsou Apache Kafka nebo Azure Event Hubs, externí tabulky spravované katalogem Unity nebo vlastní jímky definované v Pythonu.

Návrhář Lakeflow

Lakeflow Designer je vizuální nástroj pro přípravu dat v Azure Databricks. Vytvářejte a prozkoumejte transformační pracovní postupy pomocí výzev pro přetahování myší nebo přirozeného jazyka. Všechny pracovní postupy návrháře jsou podporovány kódem připraveným pro produkční prostředí, který se řídí katalogem Unity. Viz Návrhář Lakeflow.

Vlastnost	Popis
Příprava vizuálních dat	Vytvářejte pracovní postupy pro transformaci dat na ploše s funkcí přetahování.
Zpracování dat	Přeneste všechna data přístupná prostřednictvím Azure Databricks do vizuální přípravy dat v Návrháři Lakeflow.
Předdefinované operátory	K filtrování, agregaci, spojování a přetváření dat použijte předdefinované operátory.
Aktualizace pomocí přirozeného jazyka	Generování nebo aktualizace transformací pomocí výzev přirozeného jazyka v Genie Code

Úlohy Lakeflow

Úlohy Lakeflow poskytují spolehlivou orchestraci a monitorování pro datové a AI úlohy. Úloha se může skládat z jedné nebo více úloh, které spouštějí poznámkové bloky, kanály, spravované konektory, dotazy SQL, trénování strojového učení a nasazení modelu a odvozování. Úlohy také podporují vlastní logiku řídicího toku, například větvení pomocí příkazů if/else a smyčky s příkazy for each. Podívejte se na Úlohy Lakeflow.

Vlastnost	Popis
Úlohy	Úlohy jsou primárním zdrojem pro orchestraci. Představují proces, který chcete provést podle plánu.
Úlohy	Konkrétní jednotka práce v rámci úlohy. Existuje celá řada typů úkolů, které poskytují řadu možností, které je možné provést v rámci úlohy.
Tok řízení v úlohách	Úlohy toku řízení umožňují řídit, jestli se mají spouštět jiné úkoly, nebo pořadí úkolů, které se mají spustit.

Databricks Runtime pro Apache Spark

Databricks Runtime je spolehlivé a výkonově optimalizované výpočetní prostředí pro spouštění úloh Sparku, včetně dávek a streamování. Databricks Runtime poskytuje Photon, vysoce výkonný modul dotazů nativní pro Databricks a různé optimalizace infrastruktury, jako je automatické škálování. Úlohy Sparku a strukturovaného streamování můžete spouštět v prostředí Databricks Runtime vytvořením programů Spark jako poznámkových bloků, JARů nebo Python wheelů. Viz Databricks Runtime pro Apache Spark.

Vlastnost	Popis
Apache Spark na Databricks	Spark je jádrem platformy Databricks Data Intelligence.
Strukturované streamování	Strukturované streamování je modul zpracování Sparku téměř v reálném čase pro streamovaná data.

Co se stalo s živými tabulkami Delta (DLT)?

Pokud znáte tabulky Delta Live (DLT), přečtěte si téma Co se stalo s tabulkami Delta Live Tables (DLT)?.

Další zdroje informací

Koncepty přípravy dat popisují koncepty přípravy dat v Azure Databricks.
Delta Lake je optimalizovaná vrstva úložiště, která poskytuje základ pro tabulky v platformě typu lakehouse v Azure Databricks.
Osvědčené postupy přípravy dat vás seznámí s osvědčenými postupy pro přípravu dat v Azure Databricks.
Poznámkové bloky Databricks jsou oblíbeným nástrojem pro spolupráci a vývoj.
Databricks SQL popisuje použití dotazů SQL a nástrojů BI v Azure Databricks.
Uučování na Azure Databricks popisuje navrhování řešení strojového učení.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-07-10