Изучение реальных данных
Данные, представленные в материалах для образовательных учреждений, часто специально разработаны и идеализированы, чтобы продемонстрировать учащимся, как находить четкую связь между переменными. Данные "реального мира" немного менее просты.
Из-за сложности "реальных" данных необходимо проверить необработанные данные перед их использованием.
Таким образом, рекомендуется проверять необработанные данные и обрабатывать их перед использованием, что снижает ошибки или проблемы, как правило, путем удаления ошибочных точек данных или изменения данных в более полезной форме.
Проблемы, связанные с реальными данными
Реальные данные могут содержать множество различных проблем, которые могут повлиять на полезность данных и нашу интерпретацию результатов.
Важно понимать, что на большинство реальных данных влияют факторы, которые не были записаны при сборе данных. Например, у нас может быть таблица времени прохождения круга на автогонке вместе с размерами двигателя; но различные другие не учтенные факторы, такие как погода, возможно, также оказали влияние. Если проблематично, мы часто можем уменьшить влияние этих факторов, увеличив размер набора данных.
В других ситуациях точки данных, которые явно выходят за пределы ожидаемого, также известные как "выпадающие", иногда могут быть безопасно удалены из анализа, хотя мы должны следить за тем, чтобы не удалять точки данных, которые предоставляют реальные аналитические сведения.
Еще одной распространенной проблемой, связанной с реальными данными, является смещение. Предвзятость относится к тенденции к выбору определенных типов значений чаще, чем другие, таким образом, что неправильно представляет базовую популяцию или "реальный мир". Смещение иногда можно определить путем изучения данных, учитывая то, откуда поступили данные.
Реальные данные всегда будут иметь проблемы, но специалисты по обработке и анализу данных часто могут преодолеть следующие проблемы:
- Проверка отсутствующих значений и неправильно записанных данных.
- Рассмотрение удаления очевидных выбросов.
- Изучение того, какие реальные факторы могут повлиять на их анализ и определить, достаточно ли размер набора данных достаточно велик, чтобы снизить влияние этих факторов.
- Проверка необработанных данных на предвзятость и рассмотрение способов её устранения, если она обнаружена.