你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

从 Azure 存储获取数据

数据引入是用于将数据从一个或多个源加载到 Azure 数据资源管理器表中的过程。 引入后,数据即可用于查询。 本文介绍如何从 Azure 存储获取数据, (ADLS Gen2 容器、blob 容器或单个 blob) 到新的或现有表中。

引入可以作为一次性操作或连续方法完成。 只能通过门户配置连续引入。

有关数据引入的一般信息,请参阅 Azure 数据资源管理器数据引入概述

先决条件

获取数据

  1. 从左侧菜单中选择“查询”。

  2. 右键单击要在其中引入数据的数据库。 选择“获取数据”。

    查询选项卡的屏幕截图,其中右键单击数据库并打开“获取选项”对话框。

“获取数据” 窗口中,已选择“ ”选项卡。

从可用列表中选择数据源。 在此示例中,你将从 Azure 存储引入数据。

“获取数据”窗口的屏幕截图,其中选择了“源”选项卡。

配置

  1. 选择目标数据库和表。 如果要将数据引入新表,请选择“ + 新建表 ”并输入表名称。

    注意

    表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. 若要添加源,请选择 “选择容器” 或“ 添加 URI”。

    1. 如果选择了 “选择容器”,请填写以下字段:

      配置选项卡的屏幕截图,其中输入了新表并选择了一个示例数据文件。

      设置 字段说明
      订阅 存储帐户所在的订阅 ID。
      存储帐户 标识存储帐户的名称。
      容器 要引入的存储容器。
      可选) (文件筛选器
      文件夹路径 筛选数据以引入具有特定文件夹路径的文件。
      文件扩展名 筛选数据以仅引入具有特定文件扩展名的文件。
    2. 如果选择了“添加 URI”,请在“URI”字段中粘贴 Blob 容器或单个文件的存储连接字符串,然后选择 。+

      注意

      • 最多可以添加 10 个单独的 Blob。 每个 Blob 最多可以有 1 GB 的未压缩。
      • 可以从单个容器引入多达 5000 个 blob。

      “配置”选项卡的屏幕截图,其中连接字符串粘贴到“URI”字段中。

  3. 选择“下一步”

检查

此时会打开“ 检查 ”选项卡并预览数据。

若要完成引入过程,请选择“ 完成”。

“检查”选项卡的屏幕截图。

可选:

编辑列

注意

  • 对于 CSV、TSV、PSV) (表格格式,不能映射列两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用调整
新建表 新映射 重命名列,更改数据类型,更改数据源, 映射转换,添加列,删除列
现有表 新映射 添加列 (,然后可以更改数据类型、重命名和更新)
现有表 现有映射

打开进行编辑的列的屏幕截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在 “编辑列” 窗口中创建或更新列。

映射转换可以在数据类型为 int 或 long 的字符串或日期时间类型的列上执行。 支持的映射转换为:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

基于数据类型的高级选项

表格 (CSV、TSV、PSV)

  • 如果要在 现有表中引入表格格式,可以选择“ 高级>保留当前表架构”。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,并且表架构保持不变。 如果未选中此选项,则无论数据结构如何,都会为传入数据创建新列。

  • 若要将第一行用作列名称,请选择“ 高级>第一行是列标题”。

    高级 CSV 选项的屏幕截图。

JSON

  • 若要确定 JSON 数据的列划分,请选择“ 高级>嵌套级别”(从 1 到 100)。

  • 如果选择“ 高级>忽略数据格式错误”,则会以 JSON 格式引入数据。 如果未选中此复选框,则以 multijson 格式引入数据。

    高级 JSON 选项的屏幕截图。

总结

“数据准备”窗口中,当数据引入成功完成时,所有三个步骤都标有绿色检查标记。 可以查看用于每个步骤的命令,或选择卡来查询、可视化或删除引入的数据。

摘要页的屏幕截图,其中已成功完成引入。