Implementace řešení analýzy dat pomocí Azure Databricks

Ve zkratce

Na konci tohoto studijního programu si vytvoříte solidní středně pokročilé a pokročilé dovednosti v Databricks a Spark na Azure. Pomocí datových rámců Sparku, Spark SQL a PySpark můžete ingestovat, transformovat a analyzovat rozsáhlé datové sady. Získáte tak jistotu při práci s distribuovaným zpracováním dat. V Databricks víte, jak procházet pracovní prostor, spravovat clustery a sestavovat a udržovat tabulky Delta.

Budete také schopni navrhovat a spouštět kanály ETL, optimalizovat tabulky Delta, spravovat změny schématu a používat pravidla kvality dat. Kromě toho se naučíte orchestrovat úlohy pomocí úloh a kanálů Lakeflow, které vám umožní přejít z průzkumu na automatizované pracovní postupy. Nakonec se seznámíte s funkcemi zásad správného řízení a zabezpečení, včetně katalogu Unity, integrace Purview a správy přístupu, a připravíte tak efektivní provoz v produkčních datových prostředích připravených k provozu.

Požadavky

Před zahájením tohoto studijního programu byste už měli být obeznámeni se základy Pythonu a SQL. To zahrnuje možnost psát jednoduché skripty Pythonu a pracovat s běžnými datovými strukturami a také psát dotazy SQL pro filtrování, spojení a agregaci dat. Základní znalost běžných formátů souborů, jako jsou CSV, JSON nebo Parquet, vám také pomůže při práci s datovými sadami.

Znalost webu Azure Portal a základních služeb, jako je Azure Storage, je navíc důležitá spolu s obecným povědomím o konceptech dat, jako je dávkové zpracování a zpracování streamování a strukturovaná a nestrukturovaná data. I když to není povinné, předchozí zkušenost s architekturami pro velké objemy dat, jako je Spark, a práce s poznámkovými bloky Jupyter mohou udělat přechod na Databricks plynulejší.

Moduly v tomto studijním programu

Azure Databricks je cloudová služba, která poskytuje škálovatelnou platformu pro analýzu dat pomocí Apache Sparku.

Naučte se provádět analýzu dat pomocí Azure Databricks. Prozkoumejte různé metody příjmu dat a způsob integrace dat ze zdrojů, jako jsou Azure Data Lake a Azure SQL Database. Tento modul vás provede používáním poznámkových bloků pro spolupráci k provádění průzkumné analýzy dat (EDA), abyste mohli vizualizovat, manipulovat s nimi a zkoumat data a odhalit vzory, anomálie a korelace.

Azure Databricks je založený na Apache Sparku a umožňuje datovým inženýrům a analytikům spouštět úlohy Sparku pro transformaci, analýzu a vizualizaci dat ve velkém měřítku.

Delta Lake je řešení pro správu dat v Azure Databricks poskytující funkce, včetně transakcí ACID, vynucení schématu a časového cestování, které zajišťuje konzistenci dat, integritu a možnosti správy verzí.

Vytváření deklarativních kanálů Lakeflow umožňuje zpracování dat v reálném čase, škálovatelné a spolehlivé zpracování dat pomocí pokročilých funkcí Delta Lake v Azure Databricks.

Nasazení úloh pomocí úloh Lakeflow zahrnuje orchestraci a automatizaci složitých kanálů zpracování dat, pracovních postupů strojového učení a analytických úloh. V tomto modulu se naučíte nasazovat úlohy pomocí úloh Databricks Lakeflow.