Udforsk data med NumPy og Pandas
Datateknikere kan bruge forskellige værktøjer og teknikker til at udforske, visualisere og manipulere data. En af de mest almindelige måder, som dataforskere arbejder med data på, er at bruge Python-sproget og nogle specifikke pakker til databehandling.
Hvad er NumPy?
NumPy er et Python-bibliotek, der giver funktionalitet, der kan sammenlignes med matematiske værktøjer som MATLAB og R. Selvom NumPy forenkler brugeroplevelsen betydeligt, tilbyder den også omfattende matematiske funktioner.
Hvad er Pandas?
Pandas er et ekstremt populært Python-bibliotek til dataanalyse og -manipulation. Pandas er som et regnearksprogram til Python, der giver brugervenlig funktionalitet til datatabeller.
Udforsk data i en notesbog
Notesbøger er en populær måde at køre grundlæggende scripts på ved hjælp af din webbrowser. Disse notesbøger er typisk en enkelt webside, der er opdelt i tekstsektioner og kodesektioner, der kan køres individuelt.
Test af hypoteser
Dataudforskning og -analyse er typisk en iterativ proces, hvor dataforskeren tager et eksempel på data og udfører følgende typer opgaver for at analysere den og teste hypoteser:
- Ryd op i data til håndtering af fejl, manglende værdier og andre problemer.
- Anvend statistiske teknikker for bedre at forstå dataene, og hvordan eksemplet kan forventes at repræsentere datapopulationen i den virkelige verden, hvilket giver mulighed for tilfældig variation.
- Visualiser data til at bestemme relationer mellem variabler, og hvis der er tale om et machine learning-projekt, skal du identificere funktioner, der kan forudsige mærkaten.
- Rediger hypotesen, og gentag processen.