将培训数据加载到模型生成器

2023-05-10

了解如何从文件或 SQL Server 数据库加载培训数据集，以 ML.NET 的众多模型生成器方案中使用。模型生成器方案可以将 SQL Server 数据库、图像文件和 CSV 或 TSV 文件格式用作培训数据。

Model Builder 仅接受带有逗号、制表符和分号分隔符的 TSV、CSV 和 TXT 文件以及 PNG 和 JPG 图像。

模型生成器方案

模型生成器可帮助你为以下机器学习方案创建模型：

数据分类（二元分类和多类分类）：将文本数据分类为两个或更多个类别。
值预测（回归）：预测数值。
图像分类（深度学习）：将图像分类为两个或更多个类别。
建议（建议）：为特定的用户生成建议项列表。
物体检测（深度学习）：检测和识别图像中的物体。这可以找到一个或多个物体并相应地标记它们。

本文介绍了使用文本或数值数据的分类和回归方案、图像分类方案以及物体检测方案。

从文件加载文本或数值数据

你可以将文件中的文本或数值数据加载到模型生成器中。它接受逗号分隔 (CSV) 或制表符分隔 (TSV) 的文件格式。

在 Model Builder 的数据步骤中，选择“文件”作为数据源类型。
选择文本框旁的“浏览”按钮，并使用文件资源管理器浏览并选择数据文件。
在“要预测的列(标签)”下拉列表中选择一个类别。

注意

（可选）数据分类方案：如果标签列的数据类型（“要预测的列(标签)”下拉列表中的值）设置为布尔值 (True/False)，则会在模型训练管道中使用二元分类算法。否则将使用多类分类训练器。使用“高级数据选项”来修改标签列的数据类型，并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

你已经为模型生成器设置了数据源文件。单击“下一步”按钮以移至 Model Builder 中的下一步。

从 SQL Server 数据库加载数据

模型生成器支持从本地和远程 SQL Server 数据库加载数据。

本地数据库文件

若要将 SQL Server 数据库文件中的数据加载到 Model Builder，请执行以下操作：

在 Model Builder 的数据步骤中，选择“SQL Server”作为数据源类型。
选择“选择数据源”按钮。
1. 在“选择数据源”对话框中，选择“Microsoft SQL Server 数据库文件” 。
2. 取消选中“始终使用此选择”复选框，然后选择“继续”
3. 在“连接属性”对话框中，选择“浏览”，然后选择已下载的 .MDF 文件。
4. 选择“确定”
从“表名称”下拉列表选择数据集名称。
从“要预测的列(标签)”下拉列表中，选择要对其做出预测的数据类别。

注意

（可选）数据分类方案：如果标签列的数据类型（“要预测的列(标签)”下拉列表中的值）设置为布尔值 (True/False)，则会在模型训练管道中使用二元分类算法。否则将使用多类分类训练器。使用“高级数据选项”来修改标签列的数据类型，并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

远程数据库

如需将 SQL Server 数据库连接中的数据加载到 Model Builder，请执行下列步骤：

在 Model Builder 的数据步骤中，选择“SQL Server”作为数据源类型。
选择“选择数据源”按钮。
1. 在“选择数据源”对话框中，选择“Microsoft SQL Server” 。
在“连接属性”对话框中，输入 Microsoft SQL 数据库的属性。
1. 提供包含要连接到的表的服务器名称。
2. 设置对服务器的身份验证。如果选择了“SQL Server 身份验证”，请输入服务器的用户名和密码。
3. 在“选择或输入数据库名称”下拉列表中选择要连接的数据库。如果服务器名称和登录信息正确，这应会自动填充。
4. 选择“确定”
从“表名称”下拉列表选择数据集名称。
从“要预测的列(标签)”下拉列表中，选择要对其做出预测的数据类别。

注意

（可选）数据分类方案：如果标签列的数据类型（“要预测的列(标签)”下拉列表中的值）设置为布尔值 (True/False)，则会在模型训练管道中使用二元分类算法。否则将使用多类分类训练器。使用“高级数据选项”来修改标签列的数据类型，并告知 Model Builder 应为数据使用哪种类型的训练器。
更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

你已经为模型生成器设置了数据源文件。单击“下一步”按钮链接以移至 Model Builder 中的下一步。

设置图像分类数据文件

Model Builder 要求图像分类数据为 JPG 或 PNG 文件，并且整合在与分类类别对应的文件夹中。

若要将图像加载到模型生成器，请提供指向单个顶级目录的路径：

此顶级目录包含一个要预测的各个类别的子文件夹。
每个子文件夹包含属于它的类别的图像文件。

在下面所示的文件夹结构中，顶级目录为 flower_photos。有 5 个子目录，它们对应要预测的类别：菊花、蒲公英、玫瑰、向日葵和郁金香。每个子目录包含属于其各自类别的图像。

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

设置物体检测图像数据文件

Model Builder 要求物体检测图像数据采用从 VoTT 生成的 JSON 格式。 JSON 文件位于项目设置中指定的“目标位置”的 vott-json-export 文件夹中。

JSON 文件包含以下从 VoTT 生成的信息：

创建的所有标记
图像文件位置
图像边界框信息
与图像关联的标记

有关为物体检测准备数据的详细信息，请参阅从 VoTT 生成物体检测数据。

后续步骤

按照以下教程使用模型生成器生成机器学习应用：

若使用代码培训模型，请了解如何使用 ML.NET API 加载数据。

通过