你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
快速入门:一键式引入数据(预览版)
一键式引入使数据引入过程简单、快速和直观。 一键式引入可帮助你快速开始引入数据、创建数据库表、映射结构。 从不同类型的源中选择不同数据类型的数据,可以是一次性引入过程,也可以是连续引入过程。
一键式引入提供以下实用功能:
- 引入向导引导的直观体验
- 几分钟内即可引入数据
- 从不同类型的源引入数据:本地文件、blob 和容器(最多 10,000 个 blob)
- 引入各种格式的数据
- 将数据引入新表或现有表
- 建议使用表映射和架构,它们易于更改
首次引入数据时,或者在你不熟悉自己数据的架构时,一键式引入特别有用。
先决条件
Azure 订阅。 创建免费 Azure 帐户。
使用 Synapse Studio 或 Azure 门户创建数据资源管理器池
创建数据资源管理器数据库。
在 Synapse Studio 的左窗格中,选择“数据”。
选择“+”(添加新资源)>“数据资源管理器池”,并使用以下信息:
设置 建议的值 说明 池名称 contosodataexplorer 要使用的数据资源管理器池的名称 名称 TestDatabase 该数据库名称在群集中必须是唯一的。 默认保留期 365 保证数据可供查询的时间跨度(以天为单位)。 时间跨度从引入数据时算起。 默认缓存期 31 使频繁查询的数据在 SSD 存储或 RAM(而不是更长期的存储)中保持可用的时间跨度(以天为单位)。 选择“创建”以创建数据库。 创建过程通常需要不到一分钟的时间。
创建表
- 在 Synapse Studio 的左侧窗格中,选择“开发”。
- 在“KQL 脚本”下,选择“+”(添加新资源)>“KQL 脚本”。 可在右侧窗格中命名脚本。
- 在“连接到”菜单中,选择“contosodataexplorer”。
- 在“使用数据库”菜单中,选择“TestDatabase”。
- 粘贴以下命令,然后选择“运行”以创建表。
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
提示
确认是否已成功创建表。 在左侧窗格中,依次选择“数据”、“contosodataexplorer”更多菜单和“刷新”。 在 contosodataexplorer 下,展开“表”,并确保“StormEvents”表已显示在列表中。
访问一键式向导
一键式引入向导可以引导你完成一键式引入过程。
若要从 Azure Synapse 访问该向导,请执行以下操作:
在 Synapse Studio 的左窗格中,选择“数据”。
在“数据资源管理器数据库”下,右键单击相关数据库,然后选择“在 Azure 数据资源管理器中打开”。
右键单击相关的池,然后选择“引入新数据”。
若要从 Azure 门户访问该向导,请执行以下操作:
在 Azure 门户中,搜索并选择相关的 Synapse 工作区。
在“数据资源管理器池”下,选择相关池。
在“欢迎使用数据资源管理器池”主屏幕上,选择“引入新数据” 。
若要从 Azure 数据资源管理器 Web UI 访问该向导,请执行以下操作:
- 在开始之前,请使用以下步骤来获取查询和数据引入终结点。
在 Synapse Studio 的左侧窗格中,选择“管理”>“数据资源管理器池” 。
选择要用于查看其详细信息的数据资源管理器池。
记录查询和数据引入终结点。 在配置到数据资源管理器池的连接时,请使用查询终结点作为群集。 为数据引入配置 SDK 时,请使用数据引入终结点。
- 在 Azure 数据资源管理器 Web UI 中,添加与查询终结点的连接。
- 从左侧菜单中选择“查询”,右键单击“数据库”或“表”,然后选择“引入新数据” 。
- 在开始之前,请使用以下步骤来获取查询和数据引入终结点。
一键式引入向导
注意
本部分介绍使用事件中心作为数据源的向导。 你还可以使用这些步骤从 Blob、文件、Blob 容器和 ADLS Gen2 容器引入数据。
将示例值替换为 Synapse 工作区的实际值。
在“目标”选项卡上,为引入的数据选择数据库和表。
在“源”选项卡上:
选择“事件中心”作为引入的“源类型”。
使用以下信息填写事件中心数据连接详细信息:
设置 示例值 说明 数据连接名称 ContosoDataConnection 事件中心数据连接的名称 订阅 Contoso_Synapse 事件中心所在的订阅。 事件中心命名空间 contosoeventhubnamespace 事件中心的命名空间。 使用者组 contosoconsumergroup 事件中心使用者组的名称。 选择“下一步” 。
架构映射
服务会自动生成架构和引入属性,你可以对其进行更改。 可以使用现有的映射结构,也可以创建一个新的映射结构,具体取决于是引入到新表还是现有表。
在“架构”选项卡中,执行以下操作:
文件格式
一键式引入支持从数据资源管理器支持引入的所有数据格式的源数据中进行引入。
“编辑器”窗口
在“架构”选项卡的“编辑器”窗口中,可以根据需要调整数据表列 。
以下参数决定了你可在表中进行的更改:
- 表类型为“新”或“现有”
- 映射类型为“新”或“现有”
表类型 | 映射类型 | 可用调整 |
---|---|---|
新建表 | 新映射 | 更改数据类型,重命名列,新建列,删除列,更新列,升序排序,降序排序 |
现有表 | 新映射 | 新建列(你随后可在其上更改数据类型、进行重命名和更新), 更新列,升序排序,降序排序 |
现有映射 | 升序排序,降序排序 |
注意
添加新列或更新列时,可更改映射转换。 有关详细信息,请参阅映射转换
映射转换
某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在编辑器窗口中创建或更新列。
可对具有 string 或 datetime 类型且“源”的数据类型为 int 或 long 的列执行映射转换 。 支持的映射转换为:
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
数据引入
完成架构映射和列操作后,引入向导将启动数据引入进程。
从非容器源引入数据时,引入会立即生效。
如果数据源是容器:
- 数据资源管理器的批处理策略将聚合数据。
- 引入后,可以下载引入报告并查看每个已寻址的 blob 的性能。
初始数据探索
引入后,向导会允许你选择快速命令进行数据初始探索。