Zkoumání dat pomocí NumPy a Pandas
Datoví vědci můžou pomocí různých nástrojů a technik zkoumat, vizualizovat a manipulovat s daty. Jedním z nejběžnějších způsobů, jak datoví vědci pracují s daty, je použití jazyka Python a některých konkrétních balíčků pro zpracování dat.
Co je NumPy?
NumPy je knihovna Pythonu, která poskytuje funkce srovnatelné s matematickými nástroji, jako jsou MATLAB a R. I když NumPy výrazně zjednodušuje uživatelské prostředí, nabízí také komplexní matematické funkce.
Co je Pandas?
Pandas je mimořádně oblíbená knihovna Pythonu pro analýzu a manipulaci s daty. Pandas je jako tabulkové aplikace pro Python, která poskytuje snadno použitelné funkce pro tabulky dat.
Prozkoumání dat v poznámkovém bloku Jupyter
Poznámkové bloky Jupyter jsou oblíbeným způsobem spouštění základních skriptů pomocí webového prohlížeče. Tyto poznámkové bloky jsou obvykle jedna webová stránka, rozdělená do textových oddílů a oddílů kódu, které se spouští na serveru, a ne na místním počítači. Spuštěním kódu v poznámkových blocích Jupyter na serveru můžete rychle začít, aniž byste museli na místním počítači instalovat Python nebo jiné nástroje.
Testování hypotéz
Zkoumání a analýza dat je obvykle iterativní proces, ve kterém datový vědec vezme vzorek dat a provede následující druhy úloh, které ho analyzují a testují hypotézy:
- Vyčištění dat pro zpracování chyb, chybějících hodnot a dalších problémů
- Pomocí statistických technik lépe porozumíte datům a tomu, jak se dá očekávat, že vzorek bude reprezentovat reálnou populaci dat, což umožňuje náhodnou variaci.
- Vizualizujte data pro určení vztahů mezi proměnnými a v případě projektu strojového učení identifikujte funkce, které jsou potenciálně prediktivní popiskem.
- Revidujte hypotézu a opakujte proces.