Введение
Неудивительно, что роль специалиста по обработке и анализу данных связана, прежде всего, с изучением и анализом данных. Хотя конечный результат анализа данных может быть отчетом или моделью машинного обучения, специалисты по обработке и анализу данных начинают работу с данными, а Python является самым популярным специалистом по обработке и анализу данных языка программирования для работы с данными.
После десятилетий разработки с открытым исходным кодом Python предоставляет широкие функциональные возможности за счет мощных библиотек для работы со статистикой и числами:
- NumPy и Pandas упрощают анализ данных и управление ими;
- Matplotlib позволяет создавать привлекательные визуализации данных;
- Scikit-learn предназначена для простого и эффективного прогнозного анализа данных;
- TensorFlow и PyTorch обеспечивают возможности машинного обучения и глубокого обучения.
Пример сценария
Как правило, проект анализа данных предназначен для создания аналитических сведений о конкретном сценарии или для проверки гипотезы.
Например, предположим, профессор университета собирает данные о своих студентах, включая количество лекции, часы, потраченные на обучение, и окончательный класс, достигнутый в конце экзамена. Затем профессор может проанализировать данные, чтобы определить, существует ли связь между временем, затраченным на учебу, и полученной итоговой оценкой. Профессор может использовать данные, чтобы протестировать гипотезу о том, что только те учащиеся, которые учат материалы в течение определенного количества часов, могут получить проходной балл.
Что мы будем делать?
В этом модуле обучения мы рассмотрим и проанализируем данные о классе вымышленного университета с точки зрения профессора. Мы будем использовать записные книжки Jupyter и несколько средств Python и библиотек для очистки набора данных, применения статистических методов для проверки нескольких гипотез о данных и визуализации данных для определения связей между переменными.