了解数据引入管道

已完成

现在,你已对大规模数据仓库解决方案的体系结构以及可用于处理大量数据的一些分布式处理技术有一些了解,现在可以探索如何将数据从一个或多个源注入到分析数据存储中。

管道示意图。

在 Azure 上,通过创建协调 ETL 进程的“管道”,可以最好地实施大规模数据引入。 若要在一个统一的工作区中管理数据仓库解决方案的所有组件,可以使用 Azure 数据工厂创建和运行管道,也可以使用 Microsoft Fabric 中的管道功能。

在任一情况下,管道都由一个或多个操作数据的“活动”组成。 输入数据集提供源数据,而活动可定义为在生成输出数据集之前增量操作数据的数据流。 管道使用“链接服务”加载和处理数据 - 使你可以为工作流的每个步骤使用正确的技术。 例如,可以使用 Azure Blob 存储链接服务来引入相应输入数据集,然后在 Azure Databricks 上运行数据处理任务之前,使用 Azure SQL 数据库等服务运行查找相关数据值的存储过程,或者使用 Azure 函数应用自定义逻辑。 最后,可以在链接服务(如 Microsoft Fabric)中保存输出数据集。 管道还可以包括一些不需要链接服务的内置活动。