Průzkumná analýza dat v Azure Databricks: Nástroje a techniky

Tento článek popisuje nástroje a techniky pro průzkumnou analýzu dat (EDA) v Azure Databricks.

Co je EDA a proč je užitečné?

Průzkumná analýza dat (EDA) zahrnuje metody pro zkoumání datových sad, které shrnují jejich hlavní charakteristiky a identifikují případné problémy s daty. Pomocí statistických metod a vizualizací se můžete o sadě dat dozvědět, jak určit připravenost na analýzu a informovat, jaké techniky se mají použít při přípravě dat. EDA může také ovlivnit, které algoritmy se rozhodnete použít pro trénovací modely ML.

Jaké jsou nástroje EDA v Azure Databricks?

Azure Databricks má integrované nástroje pro analýzu a vizualizaci v Databricks SQL i v Databricks Runtime. Ilustrovaný seznam typů vizualizací dostupných v Azure Databricks najdete v tématu Typy vizualizací.

EDA v Databricks SQL

Tady je několik užitečných článků o nástrojích pro vizualizaci a zkoumání dat v Databricks SQL:

EDA v Databricks Runtime

Databricks Runtime poskytuje předem připravené prostředí, které už má nainstalované oblíbené knihovny pro zkoumání dat. Seznam předdefinovaných knihoven si můžete prohlédnout v poznámkách k verzi.

Kromě toho následující články ukazují příklady vizualizačních nástrojů v Databricks Runtime:

V poznámkovém bloku Pythonu Databricks můžete zkombinovat SQL a Python a prozkoumat data. Když v poznámkovém bloku Pythonu spustíte kód v buňce jazyka SQL, výsledky tabulky se automaticky zpřístupní jako datový rámec Pythonu. Podrobnosti najdete v tématu Prozkoumání výsledků buněk SQL v poznámkových blocích Pythonu.