Zkoumání dat pomocí NumPy a Pandas

Dokončeno

Datoví vědci můžou pomocí různých nástrojů a technik zkoumat, vizualizovat a manipulovat s daty. Jedním z nejběžnějších způsobů, jak datoví vědci pracují s daty, je použití jazyka Python a některých konkrétních balíčků pro zpracování dat.

Co je NumPy?

NumPy je knihovna Pythonu, která poskytuje funkce srovnatelné s matematickými nástroji, jako jsou MATLAB a R. I když NumPy výrazně zjednodušuje uživatelské prostředí, nabízí také komplexní matematické funkce.

Co je Pandas?

Pandas je mimořádně oblíbená knihovna Pythonu pro analýzu a manipulaci s daty. Pandas je jako tabulkové aplikace pro Python, která poskytuje snadno použitelné funkce pro tabulky dat.

Diagram datového rámce Pandas

Prozkoumání dat v poznámkovém bloku

Poznámkové bloky představují oblíbený způsob, jak ve vašem webovém prohlížeči spouštět základní skripty. Tyto poznámkové bloky jsou obvykle jednou webovou stránkou, rozdělené do textových oddílů a oddílů kódu, které je možné spouštět jednotlivě.

Testování hypotéz

Zkoumání a analýza dat je obvykle iterativní proces, ve kterém datový vědec vezme vzorek dat a provede následující druhy úloh, které ho analyzují a testují hypotézy:

  • Vyčištění dat pro zpracování chyb, chybějících hodnot a dalších problémů
  • Pomocí statistických technik lépe porozumíte datům a tomu, jak se dá očekávat, že vzorek bude reprezentovat reálnou populaci dat, což umožňuje náhodnou variaci.
  • Vizualizujte data pro určení vztahů mezi proměnnými a v případě projektu strojového učení identifikujte funkce , které jsou potenciálně prediktivní popiskem.
  • Revidujte hypotézu a opakujte proces.