了解如何训练机器学习模型
训练机器学习模型的方式取决于要训练的模型类型。 让我们探索一些常用框架,这些框架可用于在 Microsoft Fabric 中训练机器学习模型。
探索机器学习框架
许多数据科学家在 Python 中工作,许多机器学习库旨在很好地处理 Python。
某些库及其可在 Microsoft Fabric 中使用的常用用途包括:
- Scikit-learn:针对分类、回归和聚类分析等任务训练传统的机器学习模型。
- PyTorch 和 TensorFlow:训练用于自然语言处理或计算机视觉任务的深度学习模型。
- SynapseML:允许你创建可缩放的机器学习管道,以便进行更优化的模型训练。
在 Microsoft Fabric 中使用笔记本
若要在 Microsoft Fabric 中训练模型,可以使用 笔记本。
作为数据科学家,你可能已经熟悉 Jupyter 笔记本。 Microsoft Fabric 工作区中提供的笔记本类似于 Jupyter 笔记本,使你可以轻松地按预期运行代码。
Microsoft Fabric 中的笔记本由 Spark 计算提供支持,这意味着你可以使用 PySpark 和 Python。 大多数机器学习框架(如 scikit-learn、PyTorch 和 TensorFlow)适用于 Python 和 Pandas 数据帧。
PySpark 是一个用于分布式数据处理的 Python 库。 每当注意到需要更可缩放的计算机训练管道时,都可以探索在项目中使用 PySpark 和 SynapseML。
训练模型
机器学习的训练方式取决于训练的模型类型。 传统模型的常见方法是循环访问以下步骤:
- 通过将数据作为数据帧在笔记本中可用来加载数据。
- 通过可视化数据并了解特征(模型输入)之间的关系以及它如何影响标签(模型输出)来浏览数据。
- 准备 数据,也称为特征工程。
- 将数据拆分为训练数据集和测试数据集。
- 训练 模型。
- 通过检查性能指标来评估模型。
让我们浏览一个示例,假设你已经有了一个数据集,你已探索并准备好用于模型训练。 假设你想要训练回归模型,并选择使用 scikit-learn。
可以使用以下代码拆分准备好的数据集:
from sklearn.model_selection import train_test_split
X, y = df[['feature1','feature2','feature3']].values, df['label'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)
由于拆分数据集,你将有四个 DataFrame:
-
X_train:仅训练数据集,包括特征。 -
X_test:测试数据集,仅包括特征。 -
y_train:仅训练数据集,包括标签。 -
y_test:测试数据集,仅包括标签。
如果要训练模型,可以为任务(例如回归)选择一种算法(例如线性回归),这些算法可在所选框架(例如 scikit-learn)中使用。 以下代码演示了训练回归模型的示例:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
拟合模型后,可以使用模型在测试数据集上生成预测,以创建模型性能指标。 使用 MLflow 跟踪模型时,可以跟踪计算的性能指标。 或者,可以让 MLflow 为你创建和跟踪标准性能指标。
使用 MLflow 跟踪时,还可以确保模型以格式保存,以便在以后阶段启用模型评分。