Valós adatok vizsgálata

Befejeződött

Az oktatási anyagokban bemutatott adatok gyakran rendkívül tökéletesek, és azt mutatják meg a tanulóknak, hogyan kereshetnek egyértelmű összefüggéseket a változók között. A "valós" adatok egy kicsit kevésbé egyszerűek.

A "valós" adatok összetettsége miatt a használat előtt meg kell vizsgálnunk a nyers adatokat.

Ezért az ajánlott eljárás a nyers adatok vizsgálata és a felhasználás előtt történő feldolgozása, amely általában a hibás adatpontok eltávolításával vagy az adatok hasznosabb formában történő módosításával csökkenti a hibákat vagy problémákat.

Valós adatokkal kapcsolatos problémák

A valós adatok számos különböző problémát tartalmazhatnak, amelyek befolyásolhatják az adatok hasznosságát és az eredmények értelmezését.

Fontos felismerni, hogy a legtöbb valós adatot olyan tényezők befolyásolják, amelyeket akkor nem rögzítettek. Előfordulhat például, hogy a motorméretek mellett a versenyautók pályaidejének táblázata is van; de különböző egyéb tényezők, amelyek nem írtak le, mint például az időjárás, valószínűleg szintén szerepet játszott. Ha problémás, gyakran csökkentheti ezeknek a tényezőknek a hatását az adathalmaz méretének növelésével.

Más helyzetekben a várttól egyértelműen kívül eső adatpontok – más néven "kiugró értékek" – néha biztonságosan eltávolíthatók az elemzésekből, de ügyelnünk kell arra, hogy ne távolítsuk el a valós megállapításokat biztosító adatpontokat.

A valós adatok egy másik gyakori problémája az elfogultság. Az elfogultság azt a tendenciát jelenti, hogy bizonyos típusú értékeket gyakrabban választanak ki, mint mások, oly módon, hogy az megtévesztéssel ábrázolja a mögöttes populációt vagy a "valós világot". Az elfogultság néha azonosítható az adatok feltárásával, és szem előtt tartva az adatok forrásának alapszintű ismeretét.

A valós adatoknak mindig lesznek problémáik, de az adattudósok gyakran az alábbi megoldásokkal oldhatják meg ezeket a problémákat:

  • Hiányzó értékek és hibásan rögzített adatok keresése.
  • A nyilvánvaló kiugró értékek eltávolításának fontolóra vétele.
  • Annak vizsgálata, hogy milyen valós tényezők befolyásolhatják elemzésüket, és annak meghatározása, hogy az adathalmaz mérete elég nagy-e ahhoz, hogy csökkentse ezeknek a tényezőknek a hatását.
  • Elfogult nyers adatok keresése és az elfogultság kijavításának lehetőségeinek figyelembe vétele, ha vannak ilyenek.