Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Databricks poskytuje Lakeflow, komplexní řešení pro přípravu dat, které umožňuje datovým inženýrům, vývojářům softwaru, vývojářům SQL, analytikům a datovým vědcům poskytovat vysoce kvalitní data pro následné analýzy, AI a provozní aplikace. Lakeflow je jednotné řešení pro příjem, transformaci a orchestraci vašich dat a zahrnuje Lakeflow Connect, Lakeflow Spark Deklarativní kanály a úlohy Lakeflow.
Lakeflow Connect
Lakeflow Connect zjednodušuje příjem dat pomocí konektorů pro oblíbené podnikové aplikace, databáze, cloudové úložiště, sběrnice zpráv a místní soubory. Viz Lakeflow Connect.
| Vlastnost | Popis |
|---|---|
| Spravované konektory | Spravované konektory poskytují jednoduché uživatelské rozhraní a službu příjmu dat založenou na konfiguraci s minimální provozní režií, aniž byste museli používat základní rozhraní API a infrastrukturu kanálů. |
| Standardní konektory | Standardní konektory poskytují možnost přistupovat k datům z širšího rozsahu zdrojů dat přímo z vašich pipelinek nebo jiných dotazů. |
Deklarativní kanály Sparku pro Lakeflow (SDP)
Deklarativní kanály Sparku pro Lakeflow neboli SDP je deklarativní architektura, která snižuje složitost sestavování a správy efektivních dávkových a streamovaných datových kanálů. Lakeflow SDP rozšiřuje a je interoperabilní s deklarativními kanály Apache Sparku a běží na modulu Databricks Runtime optimalizovaném pro výkon. SDP automaticky integruje provádění toků, jímek, streamovacích tabulek a materializovaných pohledů jejich zapouzdřením a spuštěním jako pipeline. Viz deklarativní kanály Sparku Lakeflow.
| Vlastnost | Popis |
|---|---|
| Teče | Toky zpracovávají data v potrubí. Rozhraní API toků používá stejné rozhraní API datového rámce jako Apache Spark a strukturované streamování. Tok může zapisovat do streamovaných tabulek a datových úložišť, jako je téma Kafka, pomocí streamové sémantiky, nebo může zapisovat do materializovaného zobrazení pomocí sémantiky dávkového zpracování. |
| tabulky streamování | Streamovací tabulka je tabulka Delta s další podporou streamování nebo přírůstkového zpracování dat. Funguje jako cíl pro jeden nebo více toků v potrubích. |
| materializované pohledy | Materializované zobrazení je zobrazení s výsledky uloženými v mezipaměti pro rychlejší přístup. Materializované zobrazení funguje jako cíl pro kanály. |
| umyvadla | Potrubí podporují externí datová úložiště jako cílové body. Tyto jímky můžou zahrnovat služby streamování událostí, jako jsou Apache Kafka nebo Azure Event Hubs, a také externí tabulky spravované katalogem Unity. |
Úlohy Lakeflow
Úlohy Lakeflow poskytují spolehlivou orchestraci a monitorování pro datové a AI úlohy. Úloha se může skládat z jedné nebo více úloh, které spouštějí poznámkové bloky, kanály, spravované konektory, dotazy SQL, trénování strojového učení a nasazení modelu a odvozování. Úlohy také podporují vlastní logiku řídicího toku, například větvení pomocí příkazů if/else a smyčky s příkazy for each. Podívejte se na Úlohy Lakeflow.
| Vlastnost | Popis |
|---|---|
| Úlohy | Úlohy jsou primárním zdrojem pro orchestraci. Představují proces, který chcete provést podle plánu. |
| Úlohy | Konkrétní jednotka práce v rámci úlohy. Existuje celá řada typů úkolů, které poskytují řadu možností, které je možné provést v rámci úlohy. |
| Tok řízení v úlohách | Úlohy toku řízení umožňují řídit, jestli se mají spouštět jiné úkoly, nebo pořadí úkolů, které se mají spustit. |
Databricks Runtime pro Apache Spark
Databricks Runtime je spolehlivé a výkonově optimalizované výpočetní prostředí pro spouštění úloh Sparku, včetně dávek a streamování. Databricks Runtime poskytuje Photon, vysoce výkonný modul dotazů nativní pro Databricks a různé optimalizace infrastruktury, jako je automatické škálování. Úlohy Sparku a strukturovaného streamování můžete spouštět v prostředí Databricks Runtime vytvořením programů Spark jako poznámkových bloků, JARů nebo Python wheelů. Viz Databricks Runtime pro Apache Spark.
| Vlastnost | Popis |
|---|---|
| Apache Spark na Databricks | Spark je jádrem platformy Databricks Data Intelligence. |
| Strukturované streamování | Strukturované streamování je modul zpracování Sparku téměř v reálném čase pro streamovaná data. |
Co se stalo s živými tabulkami Delta (DLT)?
Pokud znáte tabulky Delta Live (DLT), přečtěte si téma Co se stalo s tabulkami Delta Live Tables (DLT)?.
Další zdroje informací
- Koncepty přípravy dat popisují koncepty přípravy dat v Azure Databricks.
- Delta Lake je optimalizovaná vrstva úložiště, která poskytuje základ pro tabulky v platformě typu lakehouse v Azure Databricks.
- Osvědčené postupy přípravy dat vás seznámí s osvědčenými postupy pro přípravu dat v Azure Databricks.
- Poznámkové bloky Databricks jsou oblíbeným nástrojem pro spolupráci a vývoj.
- Databricks SQL popisuje použití dotazů SQL a nástrojů BI v Azure Databricks.
- Databricks Mosaic AI popisuje navrhování řešení strojového učení.