Průzkumná analýza dat v Azure Databricks: Nástroje a techniky
Tento článek popisuje nástroje a techniky pro průzkumnou analýzu dat (EDA) v Azure Databricks.
Co je EDA a proč je užitečné?
Průzkumná analýza dat (EDA) zahrnuje metody pro zkoumání datových sad, které shrnují jejich hlavní charakteristiky a identifikují případné problémy s daty. Pomocí statistických metod a vizualizací se můžete o sadě dat dozvědět, jak určit připravenost na analýzu a informovat, jaké techniky se mají použít při přípravě dat. EDA může také ovlivnit, které algoritmy se rozhodnete použít pro trénovací modely ML.
Jaké jsou nástroje EDA v Azure Databricks?
Azure Databricks má integrované nástroje pro analýzu a vizualizaci v Databricks SQL i v Databricks Runtime. Ilustrovaný seznam typů vizualizací dostupných v Azure Databricks najdete v tématu Typy vizualizací.
EDA v Databricks SQL
Tady je několik užitečných článků o nástrojích pro vizualizaci a zkoumání dat v Databricks SQL:
EDA v Databricks Runtime
Databricks Runtime poskytuje předem připravené prostředí, které už má nainstalované oblíbené knihovny pro zkoumání dat. Seznam předdefinovaných knihoven si můžete prohlédnout v poznámkách k verzi.
Kromě toho následující články ukazují příklady vizualizačních nástrojů v Databricks Runtime:
V poznámkovém bloku Pythonu Databricks můžete zkombinovat SQL a Python a prozkoumat data. Když v poznámkovém bloku Pythonu spustíte kód v buňce jazyka SQL, výsledky tabulky se automaticky zpřístupní jako datový rámec Pythonu. Podrobnosti najdete v tématu Prozkoumání výsledků buněk SQL v poznámkových blocích Pythonu.