你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

从文件获取数据

数据引入是用于将数据从一个或多个源加载到 Azure 数据资源管理器表中的过程。 引入后,数据即可用于查询。 本文介绍如何将数据从本地文件获取到新的或现有的表中。

有关数据引入的一般信息,请参阅 Azure 数据资源管理器数据引入概述

先决条件

获取数据

  1. 从左侧菜单中选择“查询”。

  2. 右键单击要在其中引入数据的数据库。 选择“获取数据”。

    查询选项卡的屏幕截图,其中右键单击数据库并打开了“获取选项”对话框。

“获取数据 ”窗口中,选择了“ ”选项卡。

从可用列表中选择数据源。 在此示例中,你要从 本地文件引入数据。

“获取数据”窗口的屏幕截图,其中选择了“源”选项卡。

注意

引入支持的最大文件大小为 6 GB。 建议引入 100 MB 到 1 GB 的文件。

配置

  1. 选择目标数据库和表。 如果要将数据引入新表,请选择“ + 新建表 ”并输入表名称。

    注意

    表名最多可以包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。

  2. 将文件拖动到窗口中,或选择“ 浏览文件”。

    注意

    最多可以添加 1,000 个文件。 每个文件最多可以有 1 GB 未压缩。

    “配置”选项卡的屏幕截图,其中输入了新表并选择了一个示例数据文件。

  3. 选择“下一步”

检查

此时会打开“ 检查 ”选项卡,其中包含数据的预览。

若要完成引入过程,请选择“ 完成”。

“检查”选项卡的屏幕截图。

可选:

编辑列

注意

  • 对于 CSV、TSV、PSV) (表格格式,不能映射列两次。 若要映射到现有列,请先删除新列。
  • 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。

以下参数决定了你可在表中进行的更改:

  • 表类型为“新”或“现有”
  • 映射类型为“新”或“现有”
表类型 映射类型 可用调整
新建表 新映射 重命名列,更改数据类型,更改数据源, 映射转换,添加列,删除列
现有表 新映射 添加列 (,然后可以更改数据类型、重命名和更新)
现有表 现有映射

打开进行编辑的列的屏幕截图。

映射转换

某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在 “编辑列” 窗口中创建或更新列。

映射转换可以针对类型为 string 或 datetime 的列执行,其数据类型为 int 或 long。 支持的映射转换为:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

基于数据类型的高级选项

表格 (CSV、TSV、PSV)

  • 如果要在 现有表中引入表格格式,可以选择“ 高级>保持当前表架构”。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,并且表架构保持不变。 如果未选中此选项,则无论数据结构如何,都会为传入数据创建新列。

  • 若要将第一行用作列名称,请选择“ 高级>第一行是列标题”。

    高级 CSV 选项的屏幕截图。

JSON

  • 若要确定 JSON 数据的列划分,请选择“ 高级>嵌套级别”(从 1 到 100)。

  • 如果选择“ 高级>忽略数据格式错误”,则会以 JSON 格式引入数据。 如果未选中此复选框,则以 multijson 格式引入数据。

    高级 JSON 选项的屏幕截图。

总结

“数据准备”窗口中,当数据引入成功完成时,所有三个步骤都标有绿色检查标记。 可以查看用于每个步骤的命令,或选择卡来查询、可视化或删除引入的数据。

摘要页的屏幕截图,其中已成功完成引入。