将培训数据加载到模型生成器

了解如何从文件或 SQL Server 数据库加载培训数据集,以 ML.NET 的众多模型生成器方案中使用。 模型生成器方案可以将 SQL Server 数据库、图像文件和 CSV 或 TSV 文件格式用作培训数据。

Model Builder 仅接受带有逗号、制表符和分号分隔符的 TSV、CSV 和 TXT 文件以及 PNG 和 JPG 图像。

模型生成器方案

模型生成器可帮助你为以下机器学习方案创建模型:

  • 数据分类(二元分类和多类分类):将文本数据分类为两个或更多个类别。
  • 值预测(回归):预测数值。
  • 图像分类(深度学习):将图像分类为两个或更多个类别。
  • 建议(建议):为特定的用户生成建议项列表。
  • 物体检测(深度学习):检测和识别图像中的物体。 这可以找到一个或多个物体并相应地标记它们。

本文介绍了使用文本或数值数据的分类和回归方案、图像分类方案以及物体检测方案。

从文件加载文本或数值数据

你可以将文件中的文本或数值数据加载到模型生成器中。 它接受逗号分隔 (CSV) 或制表符分隔 (TSV) 的文件格式。

  1. 在 Model Builder 的数据步骤中,选择“文件”作为数据源类型。

  2. 选择文本框旁的“浏览”按钮,并使用文件资源管理器浏览并选择数据文件。

  3. 在“要预测的列(标签)”下拉列表中选择一个类别。

    注意

    (可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。

  4. 更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

你已经为模型生成器设置了数据源文件。 单击“下一步”按钮以移至 Model Builder 中的下一步。

从 SQL Server 数据库加载数据

模型生成器支持从本地和远程 SQL Server 数据库加载数据。

本地数据库文件

若要将 SQL Server 数据库文件中的数据加载到 Model Builder,请执行以下操作:

  1. 在 Model Builder 的数据步骤中,选择“SQL Server”作为数据源类型。

  2. 选择“选择数据源”按钮。

    1. 在“选择数据源”对话框中,选择“Microsoft SQL Server 数据库文件” 。
    2. 取消选中“始终使用此选择”复选框,然后选择“继续”
    3. 在“连接属性”对话框中,选择“浏览”,然后选择已下载的 .MDF 文件。
    4. 选择“确定”
  3. 从“表名称”下拉列表选择数据集名称。

  4. 从“要预测的列(标签)”下拉列表中,选择要对其做出预测的数据类别。

    注意

    (可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。

  5. 更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

远程数据库

如需将 SQL Server 数据库连接中的数据加载到 Model Builder,请执行下列步骤:

  1. 在 Model Builder 的数据步骤中,选择“SQL Server”作为数据源类型。

  2. 选择“选择数据源”按钮。

    1. 在“选择数据源”对话框中,选择“Microsoft SQL Server” 。
  3. 在“连接属性”对话框中,输入 Microsoft SQL 数据库的属性。

    1. 提供包含要连接到的表的服务器名称。
    2. 设置对服务器的身份验证。 如果选择了“SQL Server 身份验证”,请输入服务器的用户名和密码。
    3. 在“选择或输入数据库名称”下拉列表中选择要连接的数据库。 如果服务器名称和登录信息正确,这应会自动填充。
    4. 选择“确定”
  4. 从“表名称”下拉列表选择数据集名称。

  5. 从“要预测的列(标签)”下拉列表中,选择要对其做出预测的数据类别。

    注意

    (可选)数据分类方案:如果标签列的数据类型(“要预测的列(标签)”下拉列表中的值)设置为布尔值 (True/False),则会在模型训练管道中使用二元分类算法。 否则将使用多类分类训练器。 使用“高级数据选项”来修改标签列的数据类型,并告知 Model Builder 应为数据使用哪种类型的训练器。

  6. 更新“高级数据选项”链接中的数据以设置列设置或更新数据设置。

你已经为模型生成器设置了数据源文件。 单击“下一步”按钮链接以移至 Model Builder 中的下一步。

设置图像分类数据文件

Model Builder 要求图像分类数据为 JPG 或 PNG 文件,并且整合在与分类类别对应的文件夹中。

若要将图像加载到模型生成器,请提供指向单个顶级目录的路径:

  • 此顶级目录包含一个要预测的各个类别的子文件夹。
  • 每个子文件夹包含属于它的类别的图像文件。

在下面所示的文件夹结构中,顶级目录为 flower_photos。 有 5 个子目录,它们对应要预测的类别:菊花、蒲公英、玫瑰、向日葵和郁金香。 每个子目录包含属于其各自类别的图像。

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

设置物体检测图像数据文件

Model Builder 要求物体检测图像数据采用从 VoTT 生成的 JSON 格式。 JSON 文件位于项目设置中指定的“目标位置”的 vott-json-export 文件夹中 。

JSON 文件包含以下从 VoTT 生成的信息:

  • 创建的所有标记
  • 图像文件位置
  • 图像边界框信息
  • 与图像关联的标记

有关为物体检测准备数据的详细信息,请参阅从 VoTT 生成物体检测数据

后续步骤

按照以下教程使用模型生成器生成机器学习应用:

若使用代码培训模型,请了解如何使用 ML.NET API 加载数据