Microsoft Fabric 数据工厂中的 XML 格式

本文介绍了如何在 Microsoft Fabric 数据工厂的数据管道中配置 XML 格式。

支持的功能

以下活动和连接器支持 XML 格式作为源。

类别 连接器/活动
支持的连接器 Amazon S3
Amazon S3 兼容
Azure Blob 存储
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure 文件
文件系统
FTP
Google Cloud Storage
HTTP
Lakehouse 文件
Oracle 云存储
SFTP
支持的活动 复制活动 (source/-)
Lookup 活动
GetMetadata 活动
Delete 活动

复制活动中的 XML 格式

若要配置 XML 格式,请在数据管道复制活动的源中选择连接,然后在“文件格式”下拉列表中选择“XML”。 选择“设置”以进一步配置此格式。

屏幕截图显示文件格式设置。

XML 作为源

在“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。

屏幕截图显示选择文件格式。

  • 压缩类型:用于读取 XML 文件的压缩编解码器。 可以从下拉列表中选择“”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGZip”或“tar”类型。

    如果选择“ZipDeflate”作为压缩类型,则“将 zip 文件名保留为文件夹”将显示在“”选项卡的“高级”设置”下。

    • 将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
      • 如果选中此框(默认),则服务会将解压缩的文件写入 <specified file path>/<folder named as source zip file>/
      • 如果未选中此框,则服务会将解压缩的文件直接写入 <specified file path>。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。

    如果选择“TarGZip/tar”作为压缩类型,则“将压缩文件名保留为文件夹”将显示在“”选项卡的“高级”设置”下。

    • 将压缩文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源压缩文件名。
      • 如果选中此框(默认),则服务会将解压缩的文件写入 <specified file path>/<folder named as source compressed file>/
      • 如果未选中此框,则服务会将解压缩的文件直接写入 <specified file path>。 请确保不同的源文件中没有重复的文件名,以避免产生冲突或出现意外行为。
  • 压缩级别:选择压缩类型时指定压缩比。 可以选择“最快”或“最佳”。

    • 最快:尽快完成压缩操作,不过,无法以最佳方式压缩生成的文件。
    • 最佳:以最佳方式完成压缩操作,不过,需要耗费更长的时间。 有关详细信息,请参阅压缩级别主题
  • 编码:指定用于写入测试文件的编码类型。 从下拉列表中选择一种类型。 默认值为 UTF-8

  • Null 值:指定 null 值的字符串表示形式。 默认值为空字符串。

在“源”选项卡中的“高级”设置下,将显示以下与 XML 格式相关的属性。

  • 验证模式:指定是否要验证 XML 架构。 从下拉列表中选择一种模式。

    • :选择此选项以不使用验证模式。
    • xsd:选择此选项以使用 XSD 验证 XML 架构。
    • dtd:选择此选项以使用 DTD 验证 XML 架构。

    屏幕截图显示验证模式。

  • 命名空间:指定在分析 XML 文件时是否要启用命名空间。 默认情况下为选中。

  • 命名空间前缀对:如果已启用命名空间,请选择“+ 新建”并指定 URL前缀。 可以通过选择 + 新建来添加更多对。
    命名空间 URI 到前缀的映射,用于在分析 XML 文件时为字段命名。 如果 XML 文件具有命名空间,且已启用命名空间,则默认情况下,字段名称与 XML 文档中的名称相同。 如果在此映射中为命名空间 URI 定义了一个项,则字段名称为 prefix:fieldName

    屏幕截图显示命名空间前缀对。

  • 检测数据类型:指定是否检测整数、双精度数据类型和布尔数据类型。 默认情况下为选中。

表摘要

XML 作为源

使用 XML 格式时,复制活动“源”部分将支持以下属性

名称 说明 必选 JSON 脚本属性
文件格式 要使用的文件格式。 XML 类型(datasetSettings):
Xml
压缩类型 用来读取 XML 文件的压缩编解码器。
bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
类型(compression 下):

bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
压缩级别  压缩率。 最快
最佳 
级别(compression 下):
最快
最佳
编码 用于读取测试文件的编码类型。 “UTF-8”(默认)、“不带 BOM 的 UTF-8”、“UTF-16LE”、“UTF-16BE”、“UTF-32LE”、“UTF-32BE”、“US-ASCII”、“UTF-7”、“BIG5”、“EUC-JP”、“EUC-KR”、“GB2312”、“GB18030”、“JOHAB”、“SHIFT-JIS”、“CP875”、“CP866”、“IBM00858”、“IBM037”、“IBM273”、“IBM437”、“IBM500”、“IBM737”、“IBM775”、“IBM850”、“IBM852”、“IBM855”、“IBM857”、“IBM860”、“IBM861”、“IBM863”、“IBM864”、“IBM865”、“IBM869”、“IBM870”、“IBM01140”、“IBM01141”、“IBM01142”、“IBM01143”、“IBM01144”、“IBM01145”、“IBM01146”、“IBM01147”、“IBM01148”、“IBM01149”、“ISO-2022-JP”、“ISO-2022-KR”、“ISO-8859-1”、“ISO-8859-2”、“ISO-8859-3”、“ISO-8859-4”、“ISO-8859-5”、“ISO-8859-6”、“ISO-8859-7”、“ISO-8859-8”、“ISO-8859-9”、“ISO-8859-13”、“ISO-8859-15”、“WINDOWS-874”、“WINDOWS-1250”、“WINDOWS-1251”、“WINDOWS-1252”、“WINDOWS-1253”、“WINDOWS-1254”、“WINDOWS-1255”、“WINDOWS-1256”、“WINDOWS-1257”、“WINDOWS-1258” encodingName
将 zip 文件名保留为文件夹 指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。 已选择(默认)或未选择 preserveZipFileNameAsFolder
(在 compressionProperties->type 下为 ZipDeflateReadSettings):
true(默认)或 false
将压缩文件名保留为文件夹 指示是否在复制过程中以文件夹结构形式保留源压缩文件名。 已选择(默认)或未选择 preserveCompressionFileNameAsFolder
(在 compressionProperties->type 下为 TarGZipReadSettingsTarReadSettings):
true(默认)或 false
Null 值 null 值的字符串表示形式。 <你的 null 值>
空字符串(默认)
nullValue
验证模式 是否要验证 XML 架构。
xsd
dtd
validationMode:

xsd
dtd
命名空间 分析 XML 文件时是否启用命名空间。 已选择(默认)或未选择 命名空间:
true(默认)或 false
命名空间前缀对 命名空间 URI 到前缀的映射,用于在分析 XML 文件时为字段命名。
如果 XML 文件具有命名空间,且已启用命名空间,则默认情况下,字段名称与 XML 文档中的名称相同。
如果在此映射中为命名空间 URI 定义了一个项,则字段名称为 prefix:fieldName
< url >:< 前缀 > namespacePrefixes:
< url >:< 前缀 >
检测数据类型 是否检测整数、双精度和布尔数据类型。 已选择(默认)或未选择 detectDataType:
true(默认)或 false