Zkoumání dat pomocí NumPy a Pandas

Dokončeno

Datoví vědci můžou pomocí různých nástrojů a technik zkoumat, vizualizovat a manipulovat s daty. Jedním z nejběžnějších způsobů, jak datoví vědci pracují s daty, je použití jazyka Python a některých konkrétních balíčků pro zpracování dat.

Co je NumPy?

NumPy je knihovna Pythonu, která poskytuje funkce srovnatelné s matematickými nástroji, jako jsou MATLAB a R. I když NumPy výrazně zjednodušuje uživatelské prostředí, nabízí také komplexní matematické funkce.

Co je Pandas?

Pandas je mimořádně oblíbená knihovna Pythonu pro analýzu a manipulaci s daty. Pandas je jako tabulkové aplikace pro Python, která poskytuje snadno použitelné funkce pro tabulky dat.

Diagram of Pandas DF.

Prozkoumání dat v poznámkovém bloku Jupyter

Poznámkové bloky Jupyter jsou oblíbeným způsobem spouštění základních skriptů pomocí webového prohlížeče. Tyto poznámkové bloky jsou obvykle jedna webová stránka, rozdělená do textových oddílů a oddílů kódu, které se spouští na serveru, a ne na místním počítači. Spuštěním kódu v poznámkových blocích Jupyter na serveru můžete rychle začít, aniž byste museli na místním počítači instalovat Python nebo jiné nástroje.

Testování hypotéz

Zkoumání a analýza dat je obvykle iterativní proces, ve kterém datový vědec vezme vzorek dat a provede následující druhy úloh, které ho analyzují a testují hypotézy:

  • Vyčištění dat pro zpracování chyb, chybějících hodnot a dalších problémů
  • Pomocí statistických technik lépe porozumíte datům a tomu, jak se dá očekávat, že vzorek bude reprezentovat reálnou populaci dat, což umožňuje náhodnou variaci.
  • Vizualizujte data pro určení vztahů mezi proměnnými a v případě projektu strojového učení identifikujte funkce, které jsou potenciálně prediktivní popiskem.
  • Revidujte hypotézu a opakujte proces.