Undersøg data fra den virkelige verden

Fuldført

Data, der præsenteres i undervisningsmateriale, er ofte bemærkelsesværdigt perfekte og designet til at vise de studerende, hvordan de finder klare relationer mellem variabler. Data fra den virkelige verden er lidt mindre enkle.

På grund af kompleksiteten af data i den virkelige verden skal vi undersøge rådata for problemer, før vi bruger dem.

Den bedste praksis er derfor at undersøge rådata og behandle dem før brug, hvilket reducerer fejl eller problemer, typisk ved at fjerne fejlbehæftede datapunkter eller ændre dataene til en mere nyttig form.

Dataproblemer i den virkelige verden

Data fra den virkelige verden kan indeholde mange forskellige problemer, der kan påvirke nytten af dataene og vores fortolkning af resultaterne.

Det er vigtigt at indse, at de fleste data i den virkelige verden er påvirket af faktorer, der ikke blev registreret på det pågældende tidspunkt. Vi kan f.eks. have en tabel over kørebanetider sammen med motorstørrelser. men forskellige andre faktorer, der ikke blev nedskrevet, såsom vejret, spillede sandsynligvis også en rolle. Hvis det er problematisk, kan vi ofte reducere disse faktorers indflydelse ved at øge datasættets størrelse.

I andre situationer kan datapunkter, der er klart uden for det forventede – også kendt som "udenforliggende værdier" - nogle gange fjernes sikkert fra analyser, selvom vi skal sørge for ikke at fjerne datapunkter, der giver reel indsigt.

Et andet almindeligt problem i data i den virkelige verden er bias. Bias refererer til en tendens til at vælge visse typer værdier oftere end andre på en måde, der forvansker den underliggende befolkning eller "den virkelige verden". Bias kan nogle gange identificeres ved at udforske data, samtidig med at du er opmærksom på grundlæggende viden om, hvor dataene kom fra.

Der vil altid være problemer med data fra den virkelige verden, men dataforskere kan ofte løse disse problemer ved at:

  • Søger efter manglende værdier og forkert registrerede data.
  • Overvejer at fjerne åbenlyse udenforliggende værdier.
  • Undersøgelse af, hvilke faktorer i den virkelige verden der kan påvirke deres analyse og afgøre, om deres datasætstørrelse er stor nok til at reducere virkningen af disse faktorer.
  • Kontrollerer, om der er forudindtagete rådata, og overvejer deres muligheder for at rette biasen, hvis de findes.