Введение

Завершено

Неудивительно, что роль специалиста по обработке и анализу данных связана, прежде всего, с изучением и анализом данных. Хотя конечный результат анализа данных может быть отчетом или моделью машинного обучения, специалисты по обработке и анализу данных начинают работу с данными, а Python является самым популярным специалистом по обработке и анализу данных языка программирования для работы с данными.

После десятилетий разработки с открытым исходным кодом Python предоставляет широкие функциональные возможности за счет мощных библиотек для работы со статистикой и числами:

  • NumPy и Pandas упрощают анализ данных и управление ими;
  • Matplotlib позволяет создавать привлекательные визуализации данных;
  • Scikit-learn предназначена для простого и эффективного прогнозного анализа данных;
  • TensorFlow и PyTorch обеспечивают возможности машинного обучения и глубокого обучения.

Пример сценария

Как правило, проект анализа данных предназначен для создания аналитических сведений о конкретном сценарии или для проверки гипотезы.

Например, предположим, профессор университета собирает данные о своих студентах, включая количество лекции, часы, потраченные на обучение, и окончательный класс, достигнутый в конце экзамена. Затем профессор может проанализировать данные, чтобы определить, существует ли связь между временем, затраченным на учебу, и полученной итоговой оценкой. Профессор может использовать данные, чтобы протестировать гипотезу о том, что только те учащиеся, которые учат материалы в течение определенного количества часов, могут получить проходной балл.

Diagram of lecture and study time related to student grades.

Что мы будем делать?

В этом модуле обучения мы рассмотрим и проанализируем данные о классе вымышленного университета с точки зрения профессора. Мы будем использовать записные книжки Jupyter и несколько средств Python и библиотек для очистки набора данных, применения статистических методов для проверки нескольких гипотез о данных и визуализации данных для определения связей между переменными.