Microsoft Fabric 数据工厂中的 XML 格式
本文介绍了如何在 Microsoft Fabric 数据工厂的数据管道中配置 XML 格式。
支持的功能
以下活动和连接器支持 XML 格式作为源。
复制活动中的 XML 格式
若要配置 XML 格式,请在数据管道复制活动的源中选择连接,然后在“文件格式”下拉列表中选择“XML”。 选择“设置”以进一步配置此格式。
XML 作为源
在“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。
压缩类型:用于读取 XML 文件的压缩编解码器。 可以从下拉列表中选择“无”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGZip”或“tar”类型。
如果选择“ZipDeflate”作为压缩类型,则“将 zip 文件名保留为文件夹”将显示在“源”选项卡的“高级”设置”下。
- 将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
- 如果选中此框(默认),则服务会将解压缩的文件写入
<specified file path>/<folder named as source zip file>/
。 - 如果未选中此框,则服务会将解压缩的文件直接写入
<specified file path>
。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。
- 如果选中此框(默认),则服务会将解压缩的文件写入
如果选择“TarGZip/tar”作为压缩类型,则“将压缩文件名保留为文件夹”将显示在“源”选项卡的“高级”设置”下。
- 将压缩文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源压缩文件名。
- 如果选中此框(默认),则服务会将解压缩的文件写入
<specified file path>/<folder named as source compressed file>/
。 - 如果未选中此框,则服务会将解压缩的文件直接写入
<specified file path>
。 请确保不同的源文件中没有重复的文件名,以避免产生冲突或出现意外行为。
- 如果选中此框(默认),则服务会将解压缩的文件写入
- 将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
压缩级别:选择压缩类型时指定压缩比。 可以选择“最快”或“最佳”。
- 最快:尽快完成压缩操作,不过,无法以最佳方式压缩生成的文件。
- 最佳:以最佳方式完成压缩操作,不过,需要耗费更长的时间。 有关详细信息,请参阅压缩级别主题。
编码:指定用于写入测试文件的编码类型。 从下拉列表中选择一种类型。 默认值为 UTF-8。
Null 值:指定 null 值的字符串表示形式。 默认值为空字符串。
在“源”选项卡中的“高级”设置下,将显示以下与 XML 格式相关的属性。
验证模式:指定是否要验证 XML 架构。 从下拉列表中选择一种模式。
- 无:选择此选项以不使用验证模式。
- xsd:选择此选项以使用 XSD 验证 XML 架构。
- dtd:选择此选项以使用 DTD 验证 XML 架构。
命名空间:指定在分析 XML 文件时是否要启用命名空间。 默认情况下为选中。
命名空间前缀对:如果已启用命名空间,请选择“+ 新建”并指定 URL 和前缀。 可以通过选择 + 新建来添加更多对。
命名空间 URI 到前缀的映射,用于在分析 XML 文件时为字段命名。 如果 XML 文件具有命名空间,且已启用命名空间,则默认情况下,字段名称与 XML 文档中的名称相同。 如果在此映射中为命名空间 URI 定义了一个项,则字段名称为prefix:fieldName
。检测数据类型:指定是否检测整数、双精度数据类型和布尔数据类型。 默认情况下为选中。
表摘要
XML 作为源
使用 XML 格式时,复制活动“源”部分将支持以下属性。
名称 | 说明 | 值 | 必选 | JSON 脚本属性 |
---|---|---|---|---|
文件格式 | 要使用的文件格式。 | XML | 是 | 类型(在 datasetSettings 下):Xml |
压缩类型 | 用来读取 XML 文件的压缩编解码器。 | 无 bzip2 gzip deflate ZipDeflate TarGZip tar |
否 | 类型(在 compression 下):bzip2 gzip deflate ZipDeflate TarGZip tar |
压缩级别 | 压缩率。 | 最快 最佳 |
无 | 级别(在 compression 下):最快 最佳 |
编码 | 用于读取测试文件的编码类型。 | “UTF-8”(默认)、“不带 BOM 的 UTF-8”、“UTF-16LE”、“UTF-16BE”、“UTF-32LE”、“UTF-32BE”、“US-ASCII”、“UTF-7”、“BIG5”、“EUC-JP”、“EUC-KR”、“GB2312”、“GB18030”、“JOHAB”、“SHIFT-JIS”、“CP875”、“CP866”、“IBM00858”、“IBM037”、“IBM273”、“IBM437”、“IBM500”、“IBM737”、“IBM775”、“IBM850”、“IBM852”、“IBM855”、“IBM857”、“IBM860”、“IBM861”、“IBM863”、“IBM864”、“IBM865”、“IBM869”、“IBM870”、“IBM01140”、“IBM01141”、“IBM01142”、“IBM01143”、“IBM01144”、“IBM01145”、“IBM01146”、“IBM01147”、“IBM01148”、“IBM01149”、“ISO-2022-JP”、“ISO-2022-KR”、“ISO-8859-1”、“ISO-8859-2”、“ISO-8859-3”、“ISO-8859-4”、“ISO-8859-5”、“ISO-8859-6”、“ISO-8859-7”、“ISO-8859-8”、“ISO-8859-9”、“ISO-8859-13”、“ISO-8859-15”、“WINDOWS-874”、“WINDOWS-1250”、“WINDOWS-1251”、“WINDOWS-1252”、“WINDOWS-1253”、“WINDOWS-1254”、“WINDOWS-1255”、“WINDOWS-1256”、“WINDOWS-1257”、“WINDOWS-1258” | 无 | encodingName |
将 zip 文件名保留为文件夹 | 指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。 | 已选择(默认)或未选择 | 否 | preserveZipFileNameAsFolder (在 compressionProperties ->type 下为 ZipDeflateReadSettings ):true(默认)或 false |
将压缩文件名保留为文件夹 | 指示是否在复制过程中以文件夹结构形式保留源压缩文件名。 | 已选择(默认)或未选择 | 否 | preserveCompressionFileNameAsFolder (在 compressionProperties ->type 下为 TarGZipReadSettings 或 TarReadSettings ):true(默认)或 false |
Null 值 | null 值的字符串表示形式。 | <你的 null 值> 空字符串(默认) |
无 | nullValue |
验证模式 | 是否要验证 XML 架构。 | 无 xsd dtd |
否 | validationMode: xsd dtd |
命名空间 | 分析 XML 文件时是否启用命名空间。 | 已选择(默认)或未选择 | 否 | 命名空间: true(默认)或 false |
命名空间前缀对 | 命名空间 URI 到前缀的映射,用于在分析 XML 文件时为字段命名。 如果 XML 文件具有命名空间,且已启用命名空间,则默认情况下,字段名称与 XML 文档中的名称相同。 如果在此映射中为命名空间 URI 定义了一个项,则字段名称为 prefix:fieldName 。 |
< url >:< 前缀 > | 否 | namespacePrefixes: < url >:< 前缀 > |
检测数据类型 | 是否检测整数、双精度和布尔数据类型。 | 已选择(默认)或未选择 | 否 | detectDataType: true(默认)或 false |