CREATE EXTERNAL FILE FORMAT （Transact-SQL）

适用于：SQL Server 2016 （13.x）及以后版本 Azure SQL 数据库 Azure SQL Managed Instance Azure Synapse Analytics Analytics Platform System （PDW）Microsoft Fabric 中的 SQL 数据库

创建外部文件格式对象，定义存储在 Hadoop、Azure Blob Storage、Azure Data Lake Store、Microsoft Fabric 中的 OneLake 或与外部流相关的输入和输出流中的外部数据。创建外部文件格式是创建外部表的先决条件。通过创建外部文件格式，可指定外部表引用的数据的实际布局。若要创建外部表，请参阅 CREATE EXTERNAL TABLE (Transact-SQL)。

支持以下文件格式：

带分隔符的文本

Microsoft Fabric 中的 SQL 数据库仅支持 CSV 格式的分隔文本。
蜂巢RCFile

不适用于Azure Synapse Analytics、Azure SQL Managed Instance、Azure SQL Database、Microsoft Fabric中的SQL数据库，或SQL Server 2022 （16.x）。
蜂巢ORC系统

不适用于Azure Synapse Analytics、Azure SQL Managed Instance、Azure SQL Database、Microsoft Fabric中的SQL数据库，或SQL Server 2022 （16.x）。
木条镶花之地板
JSON

仅适用于 Azure SQL Edge。有关用于OPENROWSET在其他平台中导入 JSON 数据的信息，请参阅在 Azure Synapse Analytics 中使用无服务器 SQL 池将 JSON 文档导入 SQL Server 或查询 JSON 文件。
增量

仅适用于Azure Synapse Analytics、Azure SQL Database、SQL Server 2022（16.x）及更高版本中的无服务器SQL池。可以查询 Delta Lake 版本 1.0。由于 Delta Lake 1.2 中引入了更改，如重命名列，因此不受支持。如果使用更高版本的 Delta 和删除向量、v2 检查点和其他功能，请考虑使用其他查询引擎，例如适用于 Lakehouses 的 Microsoft Fabric SQL 分析终结点。

Transact-SQL 语法约定

语法

-- Create an external file format for DELIMITED (CSV/TSV) files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
        FORMAT_TYPE = DELIMITEDTEXT
    [ , FORMAT_OPTIONS ( <format_options> [ ,...n  ] ) ]
    [ , DATA_COMPRESSION = {
           'org.apache.hadoop.io.compress.GzipCodec'
        }
     ]);

<format_options> ::=
{
    FIELD_TERMINATOR = field_terminator
    | STRING_DELIMITER = string_delimiter
    | FIRST_ROW = integer -- Applies to: Azure Synapse Analytics and SQL Server 2022 and later versions
    | DATE_FORMAT = datetime_format
    | USE_TYPE_DEFAULT = { TRUE | FALSE }
    | ENCODING = {'UTF8' | 'UTF16'}
    | PARSER_VERSION = {'parser_version'}

}

--Create an external file format for RC files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
    FORMAT_TYPE = RCFILE,
    SERDE_METHOD = {
        'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe'
      | 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
    }
    [ , DATA_COMPRESSION = 'org.apache.hadoop.io.compress.DefaultCodec' ]);

--Create an external file format for ORC file.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = ORC
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.DefaultCodec' }
    ]);

--Create an external file format for PARQUET files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = PARQUET
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.GzipCodec' }
    ]);

-- Create an external file format for JSON files.
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
    FORMAT_TYPE = JSON
     [ , DATA_COMPRESSION = {
        'org.apache.hadoop.io.compress.SnappyCodec'
      | 'org.apache.hadoop.io.compress.GzipCodec'
      | 'org.apache.hadoop.io.compress.DefaultCodec' }
    ]);

-- Create an external file format for delta table files
CREATE EXTERNAL FILE FORMAT file_format_name
WITH (
         FORMAT_TYPE = DELTA
      );

参数

file_format_name

为外部文件格式指定名称。

格式类型

指定外部数据的格式。

FORMAT_TYPE = 拼花

指定 Parquet 格式。
FORMAT_TYPE = ORC

指定优化行纵栏表 (ORC) 格式。此选项需要外部 Hadoop 群集上的 Hive 版本 0.11 或更高版本。在 Hadoop 中，ORC 文件格式可提供比 RCFILE 文件格式更好的压缩和性能。
FORMAT_TYPE = RCFILE, SERDE_METHOD = SERDE_method

指定列式记录文件格式 (RcFile)。此选项需要指定 Hive 序列化程序和反序列化程序 (SerDe) 方法。如果在 Hadoop 中使用 Hive/HiveQL 查询 RC 文件，则此要求是相同的。请注意，SerDe 方法区分大小写。

使用 PolyBase 支持的两种 SerDe 方法指定 RCFile 的示例。
- FORMAT_TYPE = RCFILE, SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe'
- FORMAT_TYPE = RCFILE, SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
FORMAT_TYPE = 限定文本

指定带有列分隔符的文本格式，也称为字段终止符。
FORMAT_TYPE = JSON

指定 JSON 格式。仅适用于 Azure SQL Edge。
FORMAT_TYPE = DELTA

指定 Delta Lake 格式。适用于 Azure Synapse Analytics 和 SQL Server 2022 (16.x) 中的无服务器 SQL 池。

FORMAT_OPTIONS

可选。仅适用于带分隔符的文本数据类型。

仅 Azure Synapse Analytics 中的无服务器 SQL 池支持 PARSER_VERSION。

无服务器 SQL 池不支持该 DATE_FORMAT 选项。

DATA_COMPRESSION = data_compression_method

为外部数据指定数据压缩方法。 DATA_COMPRESSION如果未指定，则默认值为未压缩的数据。

若要正常工作，Gzip 压缩文件必须具有 .gz 文件扩展名。

格式 DELIMITEDTEXT 类型支持以下压缩方法： DATA_COMPRESSION = org.apache.hadoop.io.compress.GzipCodec

“带分隔符的文本格式”选项

本部分中所述的格式选项都是可选的，仅适用于带分隔符的文本文件。

FIELD_TERMINATOR = field_terminator

仅适用于带分隔符的文本文件。字段终止符指定一个或多个字符，用于在带分隔符的文本文件中标记每个字段（列）的末尾。默认为竖线字符 |。若要获得有保证的支持，建议使用一个或多个 ASCII 字符。

示例：

FIELD_TERMINATOR = '|'
FIELD_TERMINATOR = ' '
FIELD_TERMINATOR = ꞌ\tꞌ
FIELD_TERMINATOR = '~|~'

STRING_DELIMITER

STRING_DELIMITER = *string_delimiter*

指定将文本值括在文本分隔文件中的字符。默认值是空字符串 ""。其值STRING_DELIMITER在功能上等效于函数中的 OPENROWSET BULK 选项。

注意

Synapse 专用 SQL 池中的 Hadoop 表使你能够在STRING_DELIMITER中指定一个或多个字符。在无服务器 SQL 池中，只能使用一个字符。

示例：

STRING_DELIMITER = '"'
STRING_DELIMITER = '0x22'（双引号十六进制）
STRING_DELIMITER = '*'
STRING_DELIMITER = ꞌ,ꞌ
STRING_DELIMITER = '0x7E0x7E' （例如 ~~，两个平铺）- 在专用 SQL 池中受支持。

FIRST_ROW = first_row_int

适用于：Azure Synapse Analytics、SQL Server 2022 及更高版本

指定在 PolyBase 加载过程中在所有文件中首先读取的行号。此参数可以采用值 1 - 15。如果值设置为二，则在加载数据时，会跳过每个文件中的第一行（标头行）。会基于行终止符（/r/n、/r、/n）的存在跳过行。当此选项用于导出时，行会添加到数据中以确保可以在无数据丢失的情况下读取文件。如果值设置为 >2，则导出的第一行是外部表的列名。

DATE_FORMAT = datetime_format

为可能出现在带分隔符的文本文件中的所有日期和时间数据指定自定义格式。如果源文件使用默认日期时间格式，则无需此选项。每个文件只允许使用一个自定义日期时间格式。不能对每个文件指定多个自定义日期时间格式。但是，如果每个日期时间格式是外部表定义中各自数据类型的默认格式，则可以使用多个日期时间格式。

重要

PolyBase 仅使用自定义日期格式来导入数据。它不使用自定义格式将数据写入到外部文件中。

当 DATE_FORMAT 未指定或是空字符串时，PolyBase 会使用以下默认格式：

datetime：'yyyy-MM-dd HH:mm:ss'
smalldatetime：'yyyy-MM-dd HH:mm'
date：'yyyy-MM-dd'
datetime2：'yyyy-MM-dd HH:mm:ss'
datetimeoffset：'yyyy-MM-dd HH:mm:ss'
time：'HH:mm:ss'

重要

指定自定义 DATE_FORMAT 替代所有默认类型格式。这意味着，你将需要让文件中的所有日期时间、日期和时间单元中具有相同的日期格式。重写 DATE_FORMAT后，不能采用不同格式的日期和时间值。

下表中显示了示例日期格式：

有关该表的说明：

年、月和日可以具有多种格式和顺序。该表仅显示 ymd 格式。月可以具有一位或两位数字，或是三个字符。天可以具有一位或两位数字。年可以具有两位或四位数字。
毫秒 (fffffff) 不是必需的。
am 或 pm (tt) 不是必需的。默认为 AM。

日期类型	示例	说明
日期/时间	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fff`	除了年份、月和日，此日期格式还包括 00-24 小时、00-59 分钟、00-59 秒和三位数（以毫秒为单位）。
日期/时间	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffftt`	除年份、月和日外，此日期格式还包括 00-12 小时、00-59 分钟、00-59 秒、3 位数（毫秒）和`AM`、、`am`或`PMpm`。
smalldatetime	DATE_FORMAT = `yyyy-MM-dd HH:mm`	除了年、月和日之外，此日期格式包括 00-23 小时、00-59 分钟。
smalldatetime	DATE_FORMAT = `yyyy-MM-dd hh:mmtt`	除了年、月和日，此日期格式还包括 00-11 小时、00-59 分钟、无秒和`AM`、`am`、或`PMpm`。
日期	DATE_FORMAT = `yyyy-MM-dd`	年、月和日。不包括任何时间元素。
日期	DATE_FORMAT = `yyyy-MMM-dd`	年、月和日。使用 `MMM` 指定月份时，输入值为 1 或以下字符串：`Jan`、`Feb`、`Mar`、`Apr`、`May`、`Jun`、`Jul`、`Aug`、`Sep`、`Oct`、`Nov` 或 `Dec`。
datetime2	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fffffff`	除了年份、月和日，此日期格式还包括 00-23 小时、00-59 分钟、00-59 秒和 7 位数字（以毫秒为单位）。
datetime2	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffffffftt`	除了年、月和日，此日期格式还包括 00-11 小时、00-59 分钟、00-59 秒、7 位数（毫秒）和`AM`、、`am`或`PMpm`。
datetimeoffset	DATE_FORMAT = `yyyy-MM-dd HH:mm:ss.fffffff zzz`	除了年、月和日之外，此日期格式包括 00-23 小时、00-59 分钟、00-59 秒和用于毫秒的 7 位数字，在输入文件中以 `{+\|-}HH:ss` 形式输入的时区偏移。例如，因为没有夏令时的洛杉矶比 UTC 落后 8 小时，所以输入文件中的值 -08:00 会指定洛杉矶的时区。
datetimeoffset	DATE_FORMAT = `yyyy-MM-dd hh:mm:ss.ffffffftt zzz`	除了年、月和日，此日期格式还包括 00-11 小时、00-59 分钟、00-59 秒、7 位毫秒`AM`（、、`amPM`或`pm`）和时区偏移量。请参阅上一行中的说明。
时间	DATE_FORMAT = `HH:mm:ss`	没有日期值，只有 00-23 小时、00-59 分钟和 00-59 秒。

支持的日期和时间格式

外部文件格式可以描述大量日期和时间格式：

日期/时间	smalldatetime	日期	datetime2	datetimeoffset
`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fff]`	`[M[M]]M-[d]d-[yy]yy HH:mm[:00]`	`[M[M]]M-[d]d-[yy]yy`	`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fffffff]`	`[M[M]]M-[d]d-[yy]yy HH:mm:ss[.fffffff] zzz`
`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fff][tt]`	`[M[M]]M-[d]d-[yy]yy hh:mm[:00][tt]`		`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fffffff][tt]`	`[M[M]]M-[d]d-[yy]yy hh:mm:ss[.fffffff][tt] zzz`
`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fff]`	`[M[M]]M-[yy]yy-[d]d HH:mm[:00]`	`[M[M]]M-[yy]yy-[d]d`	`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fffffff]`	`[M[M]]M-[yy]yy-[d]d HH:mm:ss[.fffffff] zzz`
`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fff][tt]`	`[M[M]]M-[yy]yy-[d]d hh:mm[:00][tt]`		`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fffffff][tt]`	`[M[M]]M-[yy]yy-[d]d hh:mm:ss[.fffffff][tt] zzz`
`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fff]`	`[yy]yy-[M[M]]M-[d]d HH:mm[:00]`	`[yy]yy-[M[M]]M-[d]d`	`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fffffff]`	`[yy]yy-[M[M]]M-[d]d HH:mm:ss[.fffffff] zzz`
`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fff][tt]`	`[yy]yy-[M[M]]M-[d]d hh:mm[:00][tt]`		`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fffffff][tt]`	`[yy]yy-[M[M]]M-[d]d hh:mm:ss[.fffffff][tt] zzz`
`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fff]`	`[yy]yy-[d]d-[M[M]]M HH:mm[:00]`	`[yy]yy-[d]d-[M[M]]M`	`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fffffff]`	`[yy]yy-[d]d-[M[M]]M HH:mm:ss[.fffffff] zzz`
`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fff][tt]`	`[yy]yy-[d]d-[M[M]]M hh:mm[:00][tt]`		`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fffffff][tt]`	`[yy]yy-[d]d-[M[M]]M hh:mm:ss[.fffffff][tt] zzz`
`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fff]`	`[d]d-[M[M]]M-[yy]yy HH:mm[:00]`	`[d]d-[M[M]]M-[yy]yy`	`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fffffff]`	`[d]d-[M[M]]M-[yy]yy HH:mm:ss[.fffffff] zzz`
`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fff][tt]`	`[d]d-[M[M]]M-[yy]yy hh:mm[:00][tt]`		`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fffffff][tt]`	`[d]d-[M[M]]M-[yy]yy hh:mm:ss[.fffffff][tt] zzz`
`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fff]`	`[d]d-[yy]yy-[M[M]]M HH:mm[:00]`	`[d]d-[yy]yy-[M[M]]M`	`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fffffff]`	`[d]d-[yy]yy-[M[M]]M HH:mm:ss[.fffffff] zzz`
`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fff][tt]`	`[d]d-[yy]yy-[M[M]]M hh:mm[:00][tt]`		`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fffffff][tt]`	`[d]d-[yy]yy-[M[M]]M hh:mm:ss[.fffffff][tt] zzz`

详细信息：

若要分隔月、日和年值，必须使用下列分隔符之一：-、/ 或 .。为简单起见，该表仅使用 - 分隔符。
若要将月指定为文本，请使用三个或更多字符。使用一个或两个字符的月会解释为数字。
若要分隔时间值，请使用 : 符号。
括在方括号中的字母是可选的。
字母tt指定 [AM|PM|am|pm]。 AM 是默认值。指定时 tt ，小时值（hh）必须介于 0 到 12 的范围内。
字母 zzz 以格式 {+|-}HH:ss]指定系统的当前时区的时区偏移量。

USE_TYPE_DEFAULT = { TRUE |FALSE }

指定在 PolyBase 从文本文件中检索数据时如何处理带分隔符的文本文件中的缺失值。默认值是 FALSE。

真

从文本文件中检索数据时，使用外部表定义中对应列的数据类型的默认值来存储每个缺失值。例如，将缺失值替换为：
- 如果列被定义为数字列，则替换为 0。不支持十进制列，容易出错。
- 如果列是字符串列，则替换为空字符串。
- 如果列是日期列，则为。
- 在 Azure Synapse Analytics 中，USE_TYPE_DEFAULT=true 不支持 FORMAT_TYPE = DELIMITEDTEXT, PARSER_VERSION = '2.0'。
假

将所有缺失值存储为 NULL. 使用带分隔符的文本文件中的单词存储的任何NULL值都导入为字符串NULL。NULL

ENCODING = {'UTF8' |'UTF16'}

在 Azure Synapse Analytics 和 Analytics Platform System (PDW) (APS CU7.4) 中，PolyBase 可以读取 UTF8 和 UTF16-LE 编码的带分隔符的文本文件。

在 SQL Server 中，PolyBase 不支持读取 UTF16 编码的文件。

权限

需要 ALTER ANY EXTERNAL FILE FORMAT 权限。

注解

外部文件格式在 SQL Server 和 Azure Synapse Analytics中适用于数据库范围。它在Analytics Platform System (PDW)中适用于服务器范围。

Hadoop格式仅支持SQL Server 2016、2017和2019。

格式选项都是可选的，仅适用于带分隔符的文本文件。

当数据采用压缩格式之一进行存储时，PolyBase 会在返回数据记录之前先解压缩数据。

Microsoft Fabric 中的 SQL 数据库仅支持 CSV 格式的分隔文本和 Parquet 文件格式。 Fabric SQL 数据库仅支持 Microsoft Fabric 中的 OneLake 作为数据源。

限制

带分隔符的文本文件中的行分隔符必须受 Hadoop 的 LineRecordReader 支持。也就是说，它必须为 \r、\n 或 \r\n。用户无法配置这些分隔符。

受支持的 SerDe 方法与 RCFile 的组合以及受支持的数据压缩方法已在本文前面列出。并非所有组合都受支持。

并发 PolyBase 查询的最大数量是 32。当运行 32 个并发查询时，每个查询可以从外部文件位置最多读取 33,000 个文件。根文件夹和每个子文件夹也计为文件。如果并发度小于 32，则外部文件位置可以包含 33,000 个以上的文件。

由于外部表中文件数方面的限制，因此建议将 30,000 个以下的文件存储在外部文件位置的根和子文件夹中。此外，建议使根目录下的子文件夹数保留为较小数字。当引用太多文件时，可能会发生 Java 虚拟机内存不足异常。

通过 PolyBase 将数据导出到 Hadoop 或 Azure Blob 存储时，只会导出数据，而不会导出 CREATE EXTERNAL TABLE 命令中定义的列名（元数据）。

锁定

在 EXTERNAL FILE FORMAT 对象上采用共享锁。

性能

使用压缩文件时始终需要在传输更少的数据（在外部数据源与 SQL Server 之间）与提高 CPU 使用率来压缩和解压缩数据之间进行权衡。

Gzip 压缩文本文件不可拆分。若要提高 Gzip 压缩文本文件的性能，建议生成全部存储在外部数据源中同一目录中的多个文件。此文件结构使 PolyBase 可以使用多个读取器和解压缩进程更快地读取和解压缩数据。理想的压缩文件数是每个计算节点的最大数据读取器进程数。在 SQL Server 中

在 Analytics Platform System （PDW）中，每个节点的最大数据读取器进程数为 8。在 Azure Synapse Analytics 中，每个节点的最大数据读取器进程数为 20 个读取器。

示例

答：创建 DELIMITEDTEXT 外部文件格式

此示例为带分隔符的文本文件创建名为 textdelimited1 的外部文件格式。为 FORMAT_OPTIONS 列出的选项指定应使用竖线字符 | 分隔文件中的字段。文本文件也使用 Gzip 编解码器进行压缩。 DATA_COMPRESSION如果未指定，则取消压缩文本文件。

对于分隔文本文件，数据压缩方法可以是默认编解码器 org.apache.hadoop.io.compress.DefaultCodec 或 Gzip 编解码器 org.apache.hadoop.io.compress.GzipCodec。

CREATE EXTERNAL FILE FORMAT textdelimited1
WITH (
    FORMAT_TYPE = DELIMITEDTEXT,
    FORMAT_OPTIONS (
        FIELD_TERMINATOR = '|',
        DATE_FORMAT = 'MM/dd/yyyy' ),
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.GzipCodec'
);

B. 创建 RCFile 外部文件格式

此示例为使用 serialization/deserialization 方法 org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe 的 RCFile 创建外部文件格式。它还指定将默认编解码器用于数据压缩方法。如果未 DATA_COMPRESSION 指定，则默认值为无压缩。

CREATE EXTERNAL FILE FORMAT rcfile1
WITH (
    FORMAT_TYPE = RCFILE,
    SERDE_METHOD = 'org.apache.hadoop.hive.serde2.columnar.LazyBinaryColumnarSerDe',
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.DefaultCodec'
);

C. 创建 ORC 外部文件格式

此示例为使用 org.apache.io.compress.SnappyCodec 数据压缩方法压缩数据的 ORC 文件创建外部文件格式。如果未 DATA_COMPRESSION 指定，则默认值为无压缩。

CREATE EXTERNAL FILE FORMAT orcfile1
WITH (
    FORMAT_TYPE = ORC,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

D. 创建 PARQUET 外部文件格式

此示例为使用 org.apache.io.compress.SnappyCodec 数据压缩方法压缩数据的 Parquet 文件创建外部文件格式。如果未 DATA_COMPRESSION 指定，则默认值为无压缩。

CREATE EXTERNAL FILE FORMAT parquetfile1
WITH (
    FORMAT_TYPE = PARQUET,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

E. 创建带分隔符的文本文件，跳过标头行

适用于：Azure Synapse Analytics 和 SQL Server 2022 (16.x) 及更高版本。

此示例为具有单个标头行的 CSV 文件创建外部文件格式。有关详细信息，请参阅使用 PolyBase 虚拟化 CSV 文件。

CREATE EXTERNAL FILE FORMAT skipHeader_CSV
WITH (FORMAT_TYPE = DELIMITEDTEXT,
      FORMAT_OPTIONS(
          FIELD_TERMINATOR = ',',
          STRING_DELIMITER = '"',
          FIRST_ROW = 2,
          USE_TYPE_DEFAULT = True)
);

F. 创建 JSON 外部文件格式

适用于：Azure SQL Edge。

此示例为使用 org.apache.io.compress.SnappyCodec 数据压缩方法压缩数据的 JSON 文件创建外部文件格式。如果未 DATA_COMPRESSION 指定，则默认值为无压缩。此示例适用于 Azure SQL Edge，目前不支持其他 SQL 产品。

CREATE EXTERNAL FILE FORMAT jsonFileFormat
WITH (
    FORMAT_TYPE = JSON,
    DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
);

G. 创建 Delta 表外部文件格式

此示例为 Delta 表类型文件格式创建外部文件格式。此示例适用于 SQL Server 2022 (16.x)。有关详细信息，请参阅使用 PolyBase 虚拟化增量表。

CREATE EXTERNAL FILE FORMAT DeltaFileFormat
WITH (
    FORMAT_TYPE = DELTA
);

反馈

此页面是否有帮助？

Last updated on 2025-11-19