Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Databricks poskytuje Lakeflow, komplexní řešení pro přípravu dat, které umožňuje datovým inženýrům, vývojářům softwaru, vývojářům SQL, analytikům a datovým vědcům poskytovat vysoce kvalitní data pro následné analýzy, AI a provozní aplikace. Lakeflow je jednotné řešení pro příjem, transformaci a orchestraci vašich dat a zahrnuje Lakeflow Connect, Lakeflow Spark Deklarativní kanály a úlohy Lakeflow.
Lakeflow Connect
Lakeflow Connect zjednodušuje příjem dat pomocí konektorů pro oblíbené podnikové aplikace, databáze, cloudové úložiště, sběrnice zpráv a místní soubory. Viz Lakeflow Connect.
| Vlastnost | Popis |
|---|---|
| Spravované konektory | Spravované konektory poskytují jednoduché uživatelské rozhraní a službu příjmu dat založenou na konfiguraci s minimální provozní režií, aniž byste museli používat základní rozhraní API a infrastrukturu kanálů. |
| Standardní konektory | Standardní konektory poskytují možnost přistupovat k datům z širšího rozsahu zdrojů dat přímo z vašich pipelinek nebo jiných dotazů. |
Deklarativní kanály Sparku pro Lakeflow (SDP)
Deklarativní kanály Sparku pro Lakeflow neboli SDP je deklarativní architektura, která snižuje složitost sestavování a správy efektivních dávkových a streamovaných datových kanálů. Lakeflow SDP rozšiřuje a je interoperabilní s deklarativními kanály Apache Sparku a běží na modulu Databricks Runtime optimalizovaném pro výkon. SDP automaticky integruje provádění toků, jímek, streamovacích tabulek a materializovaných pohledů jejich zapouzdřením a spuštěním jako pipeline. Viz deklarativní kanály Sparku Lakeflow.
| Vlastnost | Popis |
|---|---|
| Teče | Toky zpracovávají data v potrubí. Rozhraní API toků používá stejné rozhraní API datového rámce jako Apache Spark a strukturované streamování. Tok může zapisovat do streamovaných tabulek a datových úložišť, jako je téma Kafka, pomocí streamové sémantiky, nebo může zapisovat do materializovaného zobrazení pomocí sémantiky dávkového zpracování. |
| tabulky streamování | Streamovací tabulka je tabulka Delta s další podporou streamování nebo přírůstkového zpracování dat. Funguje jako cíl pro jeden nebo více toků v potrubích. |
| materializované pohledy | Materializované zobrazení je zobrazení s výsledky uloženými v mezipaměti pro rychlejší přístup. Materializované zobrazení funguje jako cíl pro kanály. |
| umyvadla | Potrubí podporují externí datová úložiště jako cílové body. Tyto jímky můžou zahrnovat služby streamování událostí, jako jsou Apache Kafka nebo Azure Event Hubs, externí tabulky spravované katalogem Unity nebo vlastní jímky definované v Pythonu. |
Úlohy Lakeflow
Úlohy Lakeflow poskytují spolehlivou orchestraci a monitorování pro datové a AI úlohy. Úloha se může skládat z jedné nebo více úloh, které spouštějí poznámkové bloky, kanály, spravované konektory, dotazy SQL, trénování strojového učení a nasazení modelu a odvozování. Úlohy také podporují vlastní logiku řídicího toku, například větvení pomocí příkazů if/else a smyčky s příkazy for each. Podívejte se na Úlohy Lakeflow.
| Vlastnost | Popis |
|---|---|
| Úlohy | Úlohy jsou primárním zdrojem pro orchestraci. Představují proces, který chcete provést podle plánu. |
| Úlohy | Konkrétní jednotka práce v rámci úlohy. Existuje celá řada typů úkolů, které poskytují řadu možností, které je možné provést v rámci úlohy. |
| Tok řízení v úlohách | Úlohy toku řízení umožňují řídit, jestli se mají spouštět jiné úkoly, nebo pořadí úkolů, které se mají spustit. |
Databricks Runtime pro Apache Spark
Databricks Runtime je spolehlivé a výkonově optimalizované výpočetní prostředí pro spouštění úloh Sparku, včetně dávek a streamování. Databricks Runtime poskytuje Photon, vysoce výkonný modul dotazů nativní pro Databricks a různé optimalizace infrastruktury, jako je automatické škálování. Úlohy Sparku a strukturovaného streamování můžete spouštět v prostředí Databricks Runtime vytvořením programů Spark jako poznámkových bloků, JARů nebo Python wheelů. Viz Databricks Runtime pro Apache Spark.
| Vlastnost | Popis |
|---|---|
| Apache Spark na Databricks | Spark je jádrem platformy Databricks Data Intelligence. |
| Strukturované streamování | Strukturované streamování je modul zpracování Sparku téměř v reálném čase pro streamovaná data. |
Co se stalo s živými tabulkami Delta (DLT)?
Pokud znáte tabulky Delta Live (DLT), přečtěte si téma Co se stalo s tabulkami Delta Live Tables (DLT)?.
Další zdroje informací
- Koncepty přípravy dat popisují koncepty přípravy dat v Azure Databricks.
- Delta Lake je optimalizovaná vrstva úložiště, která poskytuje základ pro tabulky v platformě typu lakehouse v Azure Databricks.
- Osvědčené postupy přípravy dat vás seznámí s osvědčenými postupy pro přípravu dat v Azure Databricks.
- Poznámkové bloky Databricks jsou oblíbeným nástrojem pro spolupráci a vývoj.
- Databricks SQL popisuje použití dotazů SQL a nástrojů BI v Azure Databricks.
- Databricks Mosaic AI popisuje navrhování řešení strojového učení.