在加载到湖屋之前使用存储过程预处理数据

项目
05/28/2024

本教程介绍如何在 Synapse 数据仓库中使用管道脚本活动运行存储过程，以创建表并预处理 Synapse Data Warehouse中的数据。之后，我们将预处理的表加载到湖屋中。

先决条件

已启用 Microsoft Fabric 的工作区。如果还没有工作区，请参阅创建工作区一文。

在 Azure Synapse 数据仓库中准备存储过程。提前创建以下存储过程：

CREATE PROCEDURE spM_add_names
AS
--Create initial table
IF EXISTS (SELECT * FROM sys.objects
WHERE object_id = OBJECT_ID(N'[dbo].[names]') AND TYPE IN (N'U'))
BEGIN
DROP TABLE names
END;

CREATE TABLE names
(id INT,fullname VARCHAR(50));

--Populate data
INSERT INTO names VALUES (1,'John Smith');
INSERT INTO names VALUES (2,'James Dean');

--Alter table for new columns
ALTER TABLE names
ADD first_name VARCHAR(50) NULL;

ALTER TABLE names
ADD last_name VARCHAR(50) NULL;

--Update table
UPDATE names
SET first_name = SUBSTRING(fullname, 1, CHARINDEX(' ', fullname)-1);

UPDATE names
SET last_name = SUBSTRING(fullname, CHARINDEX(' ', fullname)+1, LEN(fullname)-CHARINDEX(' ', fullname));

--View Result
SELECT * FROM names;

屏幕截图显示运行存储过程以生成示例表的结果。

创建管道脚本活动以运行存储过程

在本部分中，我们使用脚本活动来运行在先决条件中创建的存储过程。

从“活动”工具栏中选择“脚本”活动，然后选择“属性”窗格中的“设置”选项卡，以选择连接详细信息。选择该处的“连接”下拉菜单，以选择“更多”。然后，可以连接到 Azure Synapse Data Warehouse。
在“新建源”部分下，选择 Azure Synapse Analytics (SQL DW)。
为“基本身份验证”提供“服务器”、“数据库”和“用户名”和“密码”字段，并在“连接名称”中输入“SynapseConnection”。然后，选择“创”以创建新连接。
输入 EXEC spM_add_names 以运行存储过程。这将会创建一个新表 dbo.name，并使用简单转换预处理数据，以便将 fullname 字段更改为两个字段，first_name 和 last_name。