Valós adatok vizsgálata
Az oktatási anyagokban bemutatott adatok gyakran rendkívül tökéletesek, és azt mutatják meg a tanulóknak, hogyan kereshetnek egyértelmű összefüggéseket a változók között. A "valós" adatok egy kicsit kevésbé egyszerűek.
A "valós" adatok összetettsége miatt a használat előtt meg kell vizsgálnunk a nyers adatokat.
Ezért az ajánlott eljárás a nyers adatok vizsgálata és a felhasználás előtt történő feldolgozása, amely általában a hibás adatpontok eltávolításával vagy az adatok hasznosabb formában történő módosításával csökkenti a hibákat vagy problémákat.
Valós adatokkal kapcsolatos problémák
A valós adatok számos különböző problémát tartalmazhatnak, amelyek befolyásolhatják az adatok hasznosságát és az eredmények értelmezését.
Fontos felismerni, hogy a legtöbb valós adatot olyan tényezők befolyásolják, amelyeket akkor nem rögzítettek. Előfordulhat például, hogy a motorméretek mellett a versenyautók pályaidejének táblázata is van; de különböző egyéb tényezők, amelyek nem írtak le, mint például az időjárás, valószínűleg szintén szerepet játszott. Ha problémás, gyakran csökkentheti ezeknek a tényezőknek a hatását az adathalmaz méretének növelésével.
Más helyzetekben a várttól egyértelműen kívül eső adatpontok – más néven "kiugró értékek" – néha biztonságosan eltávolíthatók az elemzésekből, de ügyelnünk kell arra, hogy ne távolítsuk el a valós megállapításokat biztosító adatpontokat.
A valós adatok egy másik gyakori problémája az elfogultság. Az elfogultság azt a tendenciát jelenti, hogy bizonyos típusú értékeket gyakrabban választanak ki, mint mások, oly módon, hogy az megtévesztéssel ábrázolja a mögöttes populációt vagy a "valós világot". Az elfogultság néha azonosítható az adatok feltárásával, és szem előtt tartva az adatok forrásának alapszintű ismeretét.
A valós adatoknak mindig lesznek problémáik, de az adattudósok gyakran az alábbi megoldásokkal oldhatják meg ezeket a problémákat:
- Hiányzó értékek és hibásan rögzített adatok keresése.
- A nyilvánvaló kiugró értékek eltávolításának fontolóra vétele.
- Annak vizsgálata, hogy milyen valós tényezők befolyásolhatják elemzésüket, és annak meghatározása, hogy az adathalmaz mérete elég nagy-e ahhoz, hogy csökkentse ezeknek a tényezőknek a hatását.
- Elfogult nyers adatok keresése és az elfogultság kijavításának lehetőségeinek figyelembe vétele, ha vannak ilyenek.