加载到 Delta Lake 表

Microsoft Fabric 中的湖屋提供了一项功能,便于有效地将常见文件类型加载到经过优化的 Delta 表中,以便进行分析。 “加载到表”功能允许用户将单个文件或文件夹加载到表中。 此功能允许数据工程师快速使用右键单击操作来启用针对文件和文件夹的表加载功能,从而提高了数据工程师的工作效率。 加载到表中也是一种无代码体验,降低了所有角色的进入门槛。

“加载到表”功能概述

下面是我们在集成式“加载到表”体验中启用的功能的列表,这些功能在为用户提高工作效率的同时提供灵活性:

  • 支持的文件类型:此功能目前仅支持加载 PARQUET 或 CSV 文件类型。 文件扩展名大小写不重要。

  • 单个文件加载:用户可以通过在文件的上下文菜单操作中选择“加载到 Delta 表”,以受支持的格式之一加载自己选择的单个文件。

  • 文件夹级加载:单击文件夹后选择“加载到 Delta 表”,可以一次性加载文件夹及其子文件夹下的所有文件。 此功能会自动遍历所有文件并将它们加载到 Delta 表。 必须注意的是,只有相同类型的文件才能同时加载到表中。

  • 加载到新表和现有表:用户可以选择将其文件和文件夹加载到新表或所选的现有表中。 如果决定选择加载到现有表,则用户可以进行追加,也可以选择覆盖表中的数据。

  • CSV 源文件选项:对于 CSV 文件,允许用户指定其源文件是否包含他们想要将其用作列名称的标题。 用户还可以指定自己选择的分隔符来替代适当位置的默认逗号分隔符。

  • 加载为 Delta 表:始终使用启用了 V 顺序优化的 Delta Lake 表格式加载表。

    将文件夹加载到表总体体验的 Gif。

注意

目前,无法通过 Lakehouse UI 指定表架构;必须出于该目的使用笔记本。

验证准则和规则

以下标准适用于“加载到表”体验:

  • 表名只能包含字母数字字符和下划线。 它还允许任何英文字母(不限大小写)和下划线 (_),最大长度为 256 个字符。 不允许使用短划线 (-) 或空格字符。

  • 没有列标题的文本文件会替换为标准 col# 表示法作为表列名称。

  • 列名允许任何英文字母、大写或小写、下划线(_)和其他语言(如 UTF 中文)的字符,长度最多 为 128 个字符。 在加载操作期间验证列名。 “加载到 Delta”算法将禁止值替换为下划线 (_)。 如果在验证期间未实现正确的列名,加载操作会失败。

  • 对于 CSV 文件,分隔符不能为空,不能超过 8 个字符,也不能使用以下任意字符:()[]{}、单引号 (')、双引号 (") 和空格。