Prozkoumání dat z reálného světa
Data prezentovaná ve vzdělávacím materiálu jsou často výrazně dokonalá, navržená tak, aby studentům ukázala, jak najít jasné vztahy mezi proměnnými. Data z reálného světa jsou o něco méně jednoduchá.
Kvůli složitosti "reálných" dat musíme před použitím zkontrolovat nezpracovaná data o problémech.
Proto je osvědčeným postupem zkontrolovat nezpracovaná data a zpracovat je před použitím, což snižuje chyby nebo problémy obvykle odebráním chybných datových bodů nebo úpravou dat do užitečnější formy.
Problémy s daty z reálného světa
Data z reálného světa můžou obsahovat mnoho různých problémů, které můžou ovlivnit nástroj dat a naši interpretaci výsledků.
Je důležité si uvědomit, že většina skutečných dat je ovlivněná faktory, které se v té době nezaznamenaly. Můžeme mít například tabulku časů závodních kol spolu s velikostmi motorů; ale různé další faktory, které nebyly zapsány, například počasí, pravděpodobně také hrál roli. Pokud je problém, můžeme často snížit vliv těchto faktorů zvýšením velikosti datové sady.
V jiných situacích můžou být datové body, které jsou jasně mimo očekávané hodnoty ( označované také jako "odlehlé hodnoty", někdy bezpečně odebrány z analýz, i když musíme dbát na to, abychom neodebrali datové body, které poskytují skutečné přehledy.
Dalším běžným problémem v datech z reálného světa je předsudky. Předsudky označují tendenci vybírat určité typy hodnot častěji než ostatní způsobem, který nesprávně představuje základní populaci nebo "skutečný svět". Předsudky se někdy dají identifikovat zkoumáním dat a přitom si uvědomovat základní znalosti o tom, odkud data pocházejí.
Data z reálného světa budou mít vždy problémy, ale datoví vědci můžou tyto problémy často překonat:
- Kontrola chybějících hodnot a chybně zaznamenaných dat
- Zvažte odstranění jasných odlehlých hodnot.
- Prozkoumání skutečných faktorů může ovlivnit analýzu a určit, jestli je jejich velikost datové sady dostatečně velká, aby se snížil dopad těchto faktorů.
- Kontrola předsudků nezpracovaných dat a zvážení jejich možností, jak opravit předsudky, pokud jsou nalezeny.