利用 NumPy 和 Pandas 浏览数据

已完成

数据科学家可以使用各种工具和技术来浏览、直观呈现和操作数据。 数据科学家处理数据最常用的方法之一是使用 Python 语言和一些特定的数据处理包。

什么是 NumPy?

NumPy 是一个 Python 库,提供与 MATLAB 和 R 等数学工具相当的功能。尽管 NumPy 大大简化了用户体验,但它还提供了全面的数学函数。

什么是 Pandas?

Pandas 是一个极其热门的 Python 库,用于数据分析和操作。 Pandas 对于 Python 而言就像一个电子表格应用程序,提供适用于数据表的易于使用的功能。

Pandas 数据帧的示意图。

浏览笔记本中的数据

笔记本是使用 Web 浏览器运行基本脚本的常用方法。 通常,这些笔记本是单个网页,分为可以单独运行的文本节和代码部分。

测试假设

数据探索和分析通常是一个迭代过程,数据科学家在其中进行数据采样,并执行以下任务来分析数据和检验假设

  • 清理数据以处理错误、缺失值和其他问题。
  • 应用统计技术来更好地理解数据,更好地了解如何期望样本代表真实世界的总体数据(允许随机变化)。
  • 直观呈现数据来确定变量之间的关系,在机器学习项目中,识别可能预测标签的特征
  • 修正假设并重复该过程。