了解如何训练机器学习模型

已完成

训练机器学习模型的方式取决于要训练的模型类型。 让我们探索一些常用框架,这些框架可用于在 Microsoft Fabric 中训练机器学习模型。

探索机器学习框架

许多数据科学家在 Python 中工作,许多机器学习库旨在很好地处理 Python。

某些库及其可在 Microsoft Fabric 中使用的常用用途包括:

  • Scikit-learn:针对分类、回归和聚类分析等任务训练传统的机器学习模型。
  • PyTorchTensorFlow:训练用于自然语言处理或计算机视觉任务的深度学习模型。
  • SynapseML:允许你创建可缩放的机器学习管道,以便进行更优化的模型训练。

在 Microsoft Fabric 中使用笔记本

若要在 Microsoft Fabric 中训练模型,可以使用 笔记本

作为数据科学家,你可能已经熟悉 Jupyter 笔记本。 Microsoft Fabric 工作区中提供的笔记本类似于 Jupyter 笔记本,使你可以轻松地按预期运行代码。

Microsoft Fabric 中的笔记本由 Spark 计算提供支持,这意味着你可以使用 PySpark 和 Python。 大多数机器学习框架(如 scikit-learn、PyTorch 和 TensorFlow)适用于 Python 和 Pandas 数据帧。

PySpark 是一个用于分布式数据处理的 Python 库。 每当注意到需要更可缩放的计算机训练管道时,都可以探索在项目中使用 PySpark 和 SynapseML。

训练模型

机器学习的训练方式取决于训练的模型类型。 传统模型的常见方法是循环访问以下步骤:

  • 通过将数据作为数据帧在笔记本中可用来加载数据。
  • 通过可视化数据并了解特征(模型输入)之间的关系以及它如何影响标签(模型输出)来浏览数据。
  • 准备 数据,也称为特征工程。
  • 将数据拆分为训练数据集和测试数据集。
  • 训练 模型。
  • 通过检查性能指标来评估模型。

让我们浏览一个示例,假设你已经有了一个数据集,你已探索并准备好用于模型训练。 假设你想要训练回归模型,并选择使用 scikit-learn。

可以使用以下代码拆分准备好的数据集:

from sklearn.model_selection import train_test_split

X, y = df[['feature1','feature2','feature3']].values, df['label'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

由于拆分数据集,你将有四个 DataFrame:

  • X_train:仅训练数据集,包括特征。
  • X_test:测试数据集,仅包括特征。
  • y_train:仅训练数据集,包括标签。
  • y_test:测试数据集,仅包括标签。

如果要训练模型,可以为任务(例如回归)选择一种算法(例如线性回归),这些算法可在所选框架(例如 scikit-learn)中使用。 以下代码演示了训练回归模型的示例:

from sklearn.linear_model import LinearRegression

model = LinearRegression() 
model.fit(X_train, y_train)

拟合模型后,可以使用模型在测试数据集上生成预测,以创建模型性能指标。 使用 MLflow 跟踪模型时,可以跟踪计算的性能指标。 或者,可以让 MLflow 为你创建和跟踪标准性能指标。

使用 MLflow 跟踪时,还可以确保模型以格式保存,以便在以后阶段启用模型评分。