Power Automate Process Mining 为您提供直接从 Azure Data Lake Storage Gen2 存储和读取事件日志数据的选项。 此功能通过直接连接到您的存储帐户简化了提取、转换、加载 (ETL) 管理。
此功能当前支持引入以下内容:
表
-
增量表
- Fabric Lakehouse 中的单个 Delta 表。
文件和文件夹
-
CSV
- 单个 CSV 文件。
- 包含多个具有相同结构的 CSV 文件的文件夹。 所有文件都将被引入。
-
Parquet
- 单个 parquet 文件。
- 包含多个具有相同结构的 parquet 文件的文件夹。 所有文件都将被引入。
-
Delta-parquet
- 包含 delta-parquet 结构的文件夹。
先决条件
Data Lake Storage 帐户必须是 Gen2。 您可以从 Azure 门户网站查看。 Azure Data Lake Gen1 存储帐户不受支持。
必须为 Data Lake Storage 帐户启用了分层命名空间。
所有者角色(存储账户级别)必须归属于在同一环境中为以下用户执行环境初始容器设置的用户。 这些用户连接到同一个容器,并且必须具有以下这些分配:
- 分配了存储 Blob 数据读取者或存储 Blob 数据参与者角色
- 至少分配了 Azure 资源管理器读取者角色。
为您的存储帐户建立资源共享 (CORS) 规则,以便与 Power Automate Process Mining 共享。
允许的源必须设置为
https://make.powerautomate.com和https://make.powerapps.com。允许的方法必须包括:
get、options、put、post。允许的标头应尽可能灵活。 我们建议将它们定义为
*。显示的标头应尽可能灵活。 我们建议将它们定义为
*。最长期限应尽可能灵活。 我们建议使用
86400。
Data Lake Storage 中的 CSV 数据应满足以下 CSV 文件格式要求:
- 压缩类型:无
- 列分隔符:逗号 (,)
- 行分隔符:默认和编码。 例如,默认(\r,\n, 或 \r\n)
所有数据必须采用最终事件日志格式,并满足数据要求中列出的要求。 数据应该已准备好映射到流程挖掘架构。 引入后没有可以进行的数据转换。
标题行的大小(宽度)当前限制为 1 MB。
重要提示
确保 CSV 文件中显示的时间戳符合 ISO 8601 标准格式(例如,YYYY-MM-DD HH:MM:SS.sss 或 YYYY-MM-DDTHH:MM:SS.sss)。
连接到 Azure Data Lake Storage
在左侧导航窗格中,选择 Process mining>在此处开始。
在流程名称字段中输入流程的名称。
在数据源标题下,选择导入数据>Azure Data Lake>继续。
在连接设置屏幕上,从下拉菜单中选择您的订阅 ID、资源组、存储帐户和容器。
选择包含事件日志数据的文件或文件夹。
您可以选择单个文件或具有多个文件的文件夹。 所有文件必须具有相同的标头和格式。
选择下一步。
在映射数据屏幕上,将数据映射到所需的架构。
通过选择保存和分析来完成连接。
定义增量数据刷新设置
您可以通过完全刷新或增量刷新来按计划刷新从 Azure Data Lake 获取的流程。 虽然没有保留策略,但您可以使用以下方法之一以增量方式引入数据:
如果您在上一节中选择了单个文件,请向所选文件追加更多数据。
如果您在上一部分中选择了文件夹,请将增量文件添加到所选文件夹中。
重要提示
将增量文件添加到选定文件夹或子文件夹时,请确保通过使用日期(如 YYYYMMDD.csv 或 YYYYMMDDHMMSS.csv)命名文件来指示增量顺序。
要刷新流程:
转到流程的详细信息页面。
选择刷新设置。
在计划刷新屏幕上,完成以下步骤:
- 打开使数据保持最新切换开关。
- 在数据刷新频率下拉列表中,选择刷新频率。
- 在开始时间字段中,选择刷新的日期和时间。
- 打开增量刷新切换开关。