Zkoumání dat pomocí NumPy a Pandas
Datoví vědci můžou pomocí různých nástrojů a technik zkoumat, vizualizovat a manipulovat s daty. Jedním z nejběžnějších způsobů, jak datoví vědci pracují s daty, je použití jazyka Python a některých konkrétních balíčků pro zpracování dat.
Co je NumPy?
NumPy je knihovna Pythonu, která poskytuje funkce srovnatelné s matematickými nástroji, jako jsou MATLAB a R. I když NumPy výrazně zjednodušuje uživatelské prostředí, nabízí také komplexní matematické funkce.
Co je Pandas?
Pandas je mimořádně oblíbená knihovna Pythonu pro analýzu a manipulaci s daty. Pandas je jako tabulkové aplikace pro Python, která poskytuje snadno použitelné funkce pro tabulky dat.
Prozkoumání dat v poznámkovém bloku
Poznámkové bloky představují oblíbený způsob, jak ve vašem webovém prohlížeči spouštět základní skripty. Tyto poznámkové bloky jsou obvykle jednou webovou stránkou, rozdělené do textových oddílů a oddílů kódu, které je možné spouštět jednotlivě.
Testování hypotéz
Zkoumání a analýza dat je obvykle iterativní proces, ve kterém datový vědec vezme vzorek dat a provede následující druhy úloh, které ho analyzují a testují hypotézy:
- Vyčištění dat pro zpracování chyb, chybějících hodnot a dalších problémů
- Pomocí statistických technik lépe porozumíte datům a tomu, jak se dá očekávat, že vzorek bude reprezentovat reálnou populaci dat, což umožňuje náhodnou variaci.
- Vizualizujte data pro určení vztahů mezi proměnnými a v případě projektu strojového učení identifikujte funkce , které jsou potenciálně prediktivní popiskem.
- Revidujte hypotézu a opakujte proces.