Fabric 中的自动化 ML (预览版)

自动化机器学习 (AutoML) 使用户能够通过自动执行模型开发过程最耗时、最复杂的部分来生成和部署机器学习模型。 传统上,构建机器学习模型需要具备数据科学、模型选择、超参数优化和评估方面的专业知识,此过程可能需要使用大量资源和反复试错。 AutoML 可根据输入数据和所需效果自动选择最优算法、优化超参数并生成优化的模型,从而简化建模过程。

在 Microsoft Fabric 中,AutoML 与平台的数据生态系统无缝集成,功能更加强大,使用户能够直接在其 lakehouse 上生成、训练和部署模型。 AutoML 让技术和非技术用户都能快速创建预测模型,从而使机器学习可供更广泛的受众使用。 从预测需求到检测异常和优化业务运营,Fabric 中的 AutoML 可加速通过原始数据获得可操作见解的过程,使用户尽可能减少利用 AI 所需付出的努力,同时尽可能获得最好的效益。

重要

此功能目前为预览版

AutoML 如何运作?

FLAML(快速和轻量型 AutoML)为 Fabric 中的 AutoML 功能提供支持,使用户能够在平台的数据生态系统中无缝生成、优化和部署机器学习模型。

FLAML 是一个开源 AutoML 库,旨在通过专注于效率、最小化计算成本以及动态优化超参数来快速交付准确的模型。 FLAML 使用资源感知搜索策略自动执行模型选择和优化,平衡探索和利用,以识别最优模型,同时避免耗时的试错过程。 其自适应搜索空间和轻量型算法非常适合大型数据集和存在限制的环境,可确保可缩放性和高性能。 与 Fabric 的这种集成使得技术和非技术用户都可以访问机器学习,从而加速了基于原始数据获得可操作见解的过程。

机器学习任务

Fabric 中的 AutoML 支持各种机器学习任务,包括分类、回归和预测,适用于各种数据驱动型应用程序。

二元分类

二元分类是一种监督式机器学习任务,目标是将数据点归类并归入两个不同类之一。 它涉及用经过标记的数据训练模型,该过程将每个实例分配给两个可能的类别之一,模型通过该过程学习正确预测未见过的新数据的类别。 示例包括:

  • 垃圾邮件检测:将电子邮件分类为垃圾邮件和正常邮件。
  • 欺诈检测:将金融交易标记为欺诈或合法。
  • 疾病筛查:预测患者是否患有疾病(阳性或阴性)。

多类分类

表格数据的多类分类涉及根据数据集中的特征为每一行结构化数据分配多个可能的标签之一。 下面是一些与真实表格数据集相关的示例:

  • 客户细分:根据人口统计信息、购买和行为数据将客户归类为“高价值”、“中等价值”或“低价值”等细分市场。
  • 贷款风险评估:使用申请人数据(如收入、信用评分和就业状况)预测贷款申请的风险水平为“低”、“中”还是“高”。
  • 产品类别预测:根据价格、品牌和产品规格等属性分配适当的产品类别,例如“电子”、“服装”或“家具”。
  • 疾病诊断:根据临床指标和测试结果确定患者可能患上的疾病类型,例如“1 型糖尿病”、“2 型糖尿病”或“妊娠型糖尿病”。

这些示例突出了多类分类可如何支持不同行业制定决策,其结果可归入多个互斥的类别之一。

回归

回归是一种机器学习类型,用于根据相关数据预测数字。 如果需要根据可能影响特定值的不同因素来估算特定值(如价格、温度或时间),这会很有帮助。 以下是一些示例场景:

  • 使用面积、房间数和位置等信息预测房价。
  • 根据营销支出、季节性和过去的销售趋势估算每月 销售额。

预测

预测是一种机器学习技术,用于根据历史数据预测未来值。 它非常适合在可以基于过去的趋势和模式预测后续可能发生什么的情况下用于进行规划和决策。 “预测”使用基于时间的数据(也称为时序数据),通过分析季节性特性、趋势和周期等模式来做出准确的预测。 以下是一些示例场景:

  • 销售预测:根据过去的销售额、季节性特征和市场趋势预测未来的销售数据。
  • 库存预测:使用以前的购买数据和季节性周期确定产品的未来需求。

预测有助于组织做出明智的决策,无论是需要确保足够的库存、规划资源还是为应对市场变化做准备。

创建训练和测试数据集

创建训练和测试数据集是构建机器学习模型的重要步骤。 “训练数据集”用于教授模型,使其能够通过标记的数据了解模式,而“测试数据集”评估模型对未见过的新数据的有效性,有助于检查模型的准确性和通用性。 通过这种方式拆分数据可确保模型不只是简单地记忆,而是能够对其他数据也同样有效。

在 Fabric 中,AutoML 工具可将数据自动拆分为训练集和测试集并根据特定任务(如分类、回归或预测)适用的最佳做法对拆分进行自定义,从而简化此过程。

特征工程

特征工程是将原始数据转换为有意义的特征的过程,可提高机器学习模型的性能。 这是一个关键步骤,因为正确的特征有助于模型了解数据中包含的重要模式和关系,从而获得更好的预测效果。 例如,在日期数据集中,通过创建“是假日”等特征,可发现能改进预测模型的趋势。

在 Fabric 中,用户可以利用 auto_featurize 功能自动执行此过程的一部分。 auto_featurize 分析数据并建议或生成相关特征,例如聚合、分类编码或转换,这些特征有可能增强模型的预测能力。 此功能可节省时间,让不同体验需求的用户能够利用特征工程,构建更准确、更可靠的模型。

后续步骤