在现代商业智能 (BI) 项目中,了解数据从数据源到其目标的流可能是一项挑战。 如果你构建了跨多个数据源、项目和依赖项的高级分析项目,则该挑战会更大。
“如果更改此数据会发生什么情况?”或“为什么此报表不是最新的?”之类的问题可能很难回答。 这些问题可能需要专家团队或进行深入调查才能找到答案。 Microsoft Fabric 的数据世系视图可帮助你回答这些问题。
世系和机器学习
出于下面几个原因,世系在机器学习工作流中很重要:
- 可重现性:了解模型的世系可以更轻松地重现模型及其结果。 如果其他人想要复制模型,他们可以按照你创建模型时所用的相同步骤操作,并使用相同的数据和参数。
- 透明度:了解模型的世系有助于提高其透明度。 利益干系人(例如监管机构或用户)可以了解模型的创建方式及其工作原理。 这一因素对于确保公平性、问责制和道德考虑非常重要。
- 调试:如果模型未按预期执行,则了解其世系有助于确定问题的来源。 通过检查训练过程中使用的训练数据、参数和所做决策,用户可能能够识别影响模型性能的问题。
- 改进:了解模型的世系也有助于改进它。 通过了解模型的创建和训练方式,用户可能能够更改训练数据、参数或过程,从而提高模型的准确性或其他性能指标。
数据科学项目类型
Microsoft Fabric 将机器学习模型和试验集成到一个统一的平台中。 作为此方法的一部分,用户可以浏览 Fabric 数据科学项与其他 Fabric 项之间的关系。
机器学习模型
在 Fabric 中,用户可以创建和管理机器学习模型。 机器学习模型项表示模型的版本控制列表,这让用户能够浏览模型的各种迭代。
在世系视图中,用户可以浏览机器学习模型与其他 Fabric 项之间的关系,以回答以下问题:
- 工作区中的机器学习模型与试验之间存在什么关系?
- 工作区中存在哪些机器学习模型?
- 如何追溯世系来查看哪些湖屋项与此模型相关?
机器学习试验
机器学习试验是组织和控制所有相关机器学习运行的主要单元。
在世系视图中,用户可以浏览机器学习试验与其他 Fabric 项之间的关系,以回答以下问题:
- 工作区中的机器学习试验与代码项之间存在什么关系? 例如,笔记本与 Spark 作业定义之间存在什么关系?
- 工作区中存在哪些机器学习试验?
- 如何追溯世系来查看哪些湖屋项与此试验相关?
浏览世系视图
每个 Fabric 工作区都有内置世系视图。 要访问此视图,你必须至少在工作区中具有参与者角色。 若要详细了解 Fabric 中的权限,请参阅数据科学角色和权限。
若要访问世系视图,请执行以下操作: