了解如何训练机器学习模型

6 分钟

训练机器学习模型的方式取决于要训练的模型类型。让我们探索一些常用框架，这些框架可用于在 Microsoft Fabric 中训练机器学习模型。

探索机器学习框架

许多数据科学家在 Python 中工作，许多机器学习库旨在很好地处理 Python。

某些库及其可在 Microsoft Fabric 中使用的常用用途包括：

Scikit-learn：针对分类、回归和聚类分析等任务训练传统的机器学习模型。
PyTorch 和 TensorFlow：训练用于自然语言处理或计算机视觉任务的深度学习模型。
SynapseML：允许你创建可缩放的机器学习管道，以便进行更优化的模型训练。

在 Microsoft Fabric 中使用笔记本

若要在 Microsoft Fabric 中训练模型，可以使用 笔记本。

作为数据科学家，你可能已经熟悉 Jupyter 笔记本。 Microsoft Fabric 工作区中提供的笔记本类似于 Jupyter 笔记本，使你可以轻松地按预期运行代码。

Microsoft Fabric 中的笔记本由 Spark 计算提供支持，这意味着你可以使用 PySpark 和 Python。大多数机器学习框架（如 scikit-learn、PyTorch 和 TensorFlow）适用于 Python 和 Pandas 数据帧。

PySpark 是一个用于分布式数据处理的 Python 库。每当注意到需要更可缩放的计算机训练管道时，都可以探索在项目中使用 PySpark 和 SynapseML。

训练模型

机器学习的训练方式取决于训练的模型类型。传统模型的常见方法是循环访问以下步骤：

通过将数据作为数据帧在笔记本中可用来加载数据。
通过可视化数据并了解特征（模型输入）之间的关系以及它如何影响标签（模型输出）来浏览数据。
准备数据，也称为特征工程。
将数据拆分为训练数据集和测试数据集。
训练模型。
通过检查性能指标来评估模型。

让我们浏览一个示例，假设你已经有了一个数据集，你已探索并准备好用于模型训练。假设你想要训练回归模型，并选择使用 scikit-learn。

可以使用以下代码拆分准备好的数据集：

from sklearn.model_selection import train_test_split

X, y = df[['feature1','feature2','feature3']].values, df['label'].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

由于拆分数据集，你将有四个 DataFrame：

X_train：仅训练数据集，包括特征。
X_test：测试数据集，仅包括特征。
y_train：仅训练数据集，包括标签。
y_test：测试数据集，仅包括标签。

如果要训练模型，可以为任务（例如回归）选择一种算法（例如线性回归），这些算法可在所选框架（例如 scikit-learn）中使用。以下代码演示了训练回归模型的示例：

from sklearn.linear_model import LinearRegression

model = LinearRegression() 
model.fit(X_train, y_train)

拟合模型后，可以使用模型在测试数据集上生成预测，以创建模型性能指标。使用 MLflow 跟踪模型时，可以跟踪计算的性能指标。或者，可以让 MLflow 为你创建和跟踪标准性能指标。

使用 MLflow 跟踪时，还可以确保模型以格式保存，以便在以后阶段启用模型评分。

反馈

此页面是否有帮助？