Prozkoumání dat z reálného světa

Dokončeno

Data prezentovaná ve vzdělávacím materiálu jsou často výrazně dokonalá, navržená tak, aby studentům ukázala, jak najít jasné vztahy mezi proměnnými. Data z reálného světa jsou o něco méně jednoduchá.

Kvůli složitosti "reálných" dat musíme před použitím zkontrolovat nezpracovaná data o problémech.

Proto je osvědčeným postupem zkontrolovat nezpracovaná data a zpracovat je před použitím, což snižuje chyby nebo problémy obvykle odebráním chybných datových bodů nebo úpravou dat do užitečnější formy.

Problémy s daty z reálného světa

Data z reálného světa můžou obsahovat mnoho různých problémů, které můžou ovlivnit nástroj dat a naši interpretaci výsledků.

Je důležité si uvědomit, že většina skutečných dat je ovlivněná faktory, které se v té době nezaznamenaly. Můžeme mít například tabulku časů závodních kol spolu s velikostmi motorů; ale různé další faktory, které nebyly zapsány, například počasí, pravděpodobně také hrál roli. Pokud je problém, můžeme často snížit vliv těchto faktorů zvýšením velikosti datové sady.

V jiných situacích můžou být datové body, které jsou jasně mimo očekávané hodnoty ( označované také jako "odlehlé hodnoty", někdy bezpečně odebrány z analýz, i když musíme dbát na to, abychom neodebrali datové body, které poskytují skutečné přehledy.

Dalším běžným problémem v datech z reálného světa je předsudky. Předsudky označují tendenci vybírat určité typy hodnot častěji než ostatní způsobem, který nesprávně představuje základní populaci nebo "skutečný svět". Předsudky se někdy dají identifikovat zkoumáním dat a přitom si uvědomovat základní znalosti o tom, odkud data pocházejí.

Data z reálného světa budou mít vždy problémy, ale datoví vědci můžou tyto problémy často překonat:

  • Kontrola chybějících hodnot a chybně zaznamenaných dat
  • Zvažte odstranění jasných odlehlých hodnot.
  • Prozkoumání skutečných faktorů může ovlivnit analýzu a určit, jestli je jejich velikost datové sady dostatečně velká, aby se snížil dopad těchto faktorů.
  • Kontrola předsudků nezpracovaných dat a zvážení jejich možností, jak opravit předsudky, pokud jsou nalezeny.