`COPY INTO`

文章
11/07/2024

適用於： 核取記號為「是」 Databricks SQL Databricks Runtime

將數據從檔案位置載入 Delta 資料表。這是可重試且等冪的作業 — 已載入來源位置中的檔案會略過。即使檔案自載入後已修改，也是如此。如需範例，請參閱使用 COPY INTO 的常見數據載入模式。

語法

COPY INTO target_table [ BY POSITION | ( col_name [ , <col_name> ... ] ) ]
  FROM { source_clause |
         ( SELECT expression_list FROM source_clause ) }
  FILEFORMAT = data_source
  [ VALIDATE [ ALL | num_rows ROWS ] ]
  [ FILES = ( file_name [, ...] ) | PATTERN = glob_pattern ]
  [ FORMAT_OPTIONS ( { data_source_reader_option = value } [, ...] ) ]
  [ COPY_OPTIONS ( { copy_option = value } [, ...] ) ]

source_clause
  source [ WITH ( [ CREDENTIAL { credential_name |
                                 (temporary_credential_options) } ]
                  [ ENCRYPTION (encryption_options) ] ) ]

參數

target_table

識別現有的 Delta 數據表。 target_table不得包含時態規格。

如果數據表名稱是以位置的形式提供，例如： delta.`/path/to/table` ，Unity 目錄可以控管寫入位置的存取權。您可以透過：
- 將位置定義為外部位置，並具有 WRITE FILES 該外部位置的許可權。
- 擁有 WRITE FILES 具名記憶體認證的許可權，可使用下列方式提供寫入位置的授權： COPY INTO delta.`/some/location` WITH (CREDENTIAL <named-credential>)
如需詳細資訊，請參閱使用 Unity 目錄連線到雲端物件記憶體和服務。
BY POSITION |（col_name [ ， <col_name> ... ] ）

依序數位置比對源數據行以目標數據表數據行。相符數據行的類型轉換會自動完成。

此參數僅支援無標頭 CSV 檔案格式。您必須指定 FILEFORMAT = CSV。 FORMAT_OPTIONS 也必須設定為 ("headers" = "false") （FORMAT_OPTIONS ("headers" = "false") 是預設值）。

語法選項 1： BY POSITION
- 依序數位置自動比對源數據行與目標數據表數據行。
  - 默認名稱比對不會用於比對。
  - IDENTITY 比對源數據行時，會忽略目標數據表的數據行和數據 GENERATED 行。
  - 如果源數據行數目不等於篩選的目標數據表數據行， COPY INTO 則引發錯誤。
語法選項 2： ( col_name [ , <col_name> ... ] )
- 使用括弧中的目標數據表數據行名稱清單，依相對序數位置比對源數據行與指定的目標數據表數據行，並以逗號分隔。
  - 原始數據表數據行順序和數據行名稱不會用於比對。
  - IDENTITY 數據行和資料 GENERATED 行不能在資料行名稱清單中指定，否則 COPY INTO 會引發錯誤。
  - 無法複製指定的數據列。
  - 當源數據行數目不等於指定的數據表數據行時， COPY INTO 引發錯誤。
  - 針對未在資料行名稱清單中指定的數據行， COPY INTO 如果有任何，則會指派預設值，否則指派 NULL 。如果任何數據行不可為 Null， COPY INTO 就會引發錯誤。
source

要從中載入資料的檔案位置。此位置中的檔案必須具有中指定的 FILEFORMAT格式。位置是以 URI 的形式提供。

您可以透過下列方式提供來源位置的存取權：
- credential_name
  
  用來存取或寫入記憶體位置的認證選擇性名稱。只有當檔案位置未包含在外部位置時，您才會使用此認證。請參閱 credential_name。
- 內嵌暫存認證。
- 將來源位置定義為外部位置，並透過 Unity 目錄擁有 READ FILES 外部位置的許可權。
- 使用具名記憶體認證來 READ FILES 提供授權，以透過 Unity 目錄從位置讀取。
如果路徑已定義為您有權使用的外部位置，則不需要提供內嵌或具名認證。如需詳細資訊，請參閱建立外部位置以將雲端記憶體連線至 Azure Databricks 。

注意

如果來源檔案路徑是根路徑，請在檔案路徑結尾新增斜線（/），例如 s3://my-bucket/。

接受的認證選項包括：
- AZURE_SAS_TOKEN適用於 ADLS Gen2 和 Azure Blob 儲存體
- AWS_ACCESS_KEY、 AWS_SECRET_KEY、和 AWS_SESSION_TOKEN for AWS S3
接受的加密選項如下：
- TYPE = 'AWS_SSE_C'適用於 AWS S3 的、和MASTER_KEY

請參閱使用 COPY INTO 搭配暫存認證載入數據。

SELECT expression_list

先從源數據選取指定的數據行或表達式，再複製到 Delta 數據表。表示式可以是您搭配 SELECT 語句使用的任何專案，包括窗口作業。您只能針對全域匯總使用匯總表達式，而無法在 GROUP BY 具有此語法的數據行上使用匯總表達式。
FILEFORMAT = data_source

要載入的來源檔案格式。、JSON、、、AVRO、TEXTORCPARQUET、、 BINARYFILE的CSV其中一個。
VALIDATE

適用於： Databricks SQL Databricks Runtime 10.4 LTS 和更新版本

要載入數據表的數據會經過驗證，但不會寫入數據表。這些驗證包括：
- 是否可以剖析數據。
- 架構是否符合數據表的架構，還是需要演進架構。
- 是否符合所有可為 Null 和檢查條件約束。
預設值是驗證要載入的所有數據。您可以提供資料列，以關鍵字進行驗證 ROWS ，例如 VALIDATE 15 ROWS。語句 COPY INTO 會傳回 50 個數據列或小於 50 個數位搭配 ROWS 關鍵詞使用時的數據預覽。
FILES

要載入的檔名清單，限制為1000個檔案。指定時無法搭配 PATTERN。

PATTERN

Glob 模式，識別要從來源目錄載入的檔案。指定時無法搭配 FILES。

模式	描述
`?`	比對任何單一字元
`*`	比對零或多個字元
`[abc]`	比對字元集 {a，b，c} 的單一字元。
`[a-z]`	比對字元範圍 {a... 中的單一字元...z}.
`[^a]`	比對不是字元集或範圍 {a} 的單一字元。請注意， `^` 字元必須緊接在左括弧右邊。
`{ab,cd}`	比對字串集 {ab， cd} 中的字串。
`{ab,c{de, fh}}`	比對字串集 {ab， cde， cfh} 中的字串。

FORMAT_OPTIONS

要傳遞至指定格式之 Apache Spark 數據源讀取器的選項。請參閱每個檔案格式的格式選項。
COPY_OPTIONS

控制命令作業的選項 COPY INTO 。
- force：布爾值，預設值 false。如果設定為 true，則會停用等冪性，而且檔案會載入，而不論檔案之前是否已載入。
- mergeSchema：布爾值，預設值 false。如果設定為 true，則可以根據傳入數據來演進架構。

同時叫 `COPY INTO` 用

COPY INTO 支援對相同數據表的並行調用。只要COPY INTO在不同的輸入檔集上同時叫用，每個叫用最終應該會成功，否則您就會發生交易衝突。 COPY INTO 不應同時叫用以改善效能;具有多個檔案的單 COPY INTO 一命令通常執行比每個單一檔案執行並行 COPY INTO 命令更好。 COPY INTO 當：

多個數據產生者沒有簡單的協調方式，而且無法進行單一調用。
當可以依子目錄擷取非常大型的目錄時。擷取具有大量檔案的目錄時，Databricks 建議盡可能使用自動載入器。

存取檔案元數據

若要瞭解如何存取檔案型數據源的元數據，請參閱檔案元數據數據行。

泛型選項

下列選項適用於所有檔案格式。

選項
`ignoreCorruptFiles` 類型:`Boolean` (英文) 是否要略過損毀的檔案。如果為 true，則 Spark 作業會在遇到損毀的檔案時繼續執行，而且仍然會傳回已讀取的內容。可觀測到，如 `numSkippedCorruptFiles` 中所示 Delta Lake 歷程記錄的 `operationMetrics` 資料行。在 Databricks Runtime 11.3 LTS 和更新版本中可用。預設值：`false`
`ignoreMissingFiles` 類型:`Boolean` (英文) 是否略過遺漏的檔案。如果為 true，則 Spark 作業會在遇到遺漏的檔案時繼續執行，而且仍然會傳回已讀取的內容。在 Databricks Runtime 11.3 LTS 和更新版本中可用。預設值：`false` (對於 `true` 為 `COPY INTO`)
`modifiedAfter` 類型：`Timestamp String`，例如 `2021-01-01 00:00:00.000000 UTC+0` 一個選用時間戳記，用於擷取其修改時間戳記晚於所提供時間戳記的檔案。預設值：無
`modifiedBefore` 類型：`Timestamp String`，例如 `2021-01-01 00:00:00.000000 UTC+0` 一個選用時間戳記，用於擷取其修改時間戳記早於所提供時間戳記的檔案。預設值：無
`pathGlobFilter` 或 `fileNamePattern` 類型:`String` (英文) 提供用於選擇檔案的一種潛在 Glob 模式。相當於 `COPY INTO` 中的 `PATTERN`。 `fileNamePattern` 可以在 `read_files` 中使用。預設值：無
`recursiveFileLookup` 類型:`Boolean` (英文) 是否在結構描述推斷期間略過分割推斷。這不會影響載入的檔案。預設值：`false`

`JSON` 選項

選項
`allowBackslashEscapingAnyCharacter` 類型:`Boolean` (英文) 是否允許反斜線逸出其後面的任何字元。如果未啟用，則只能逸出 JSON 規格明確列出的字元。預設值：`false`
`allowComments` 類型:`Boolean` (英文) 是否允許在剖析的內容中使用 Java、C 和 C++ 樣式註解 (`'/'`、`'*'` 和 `'//'` 變體)。預設值：`false`
`allowNonNumericNumbers` 類型:`Boolean` (英文) 是否允許將非數字 (`NaN`) 權杖集用作合法浮點數值。預設值：`true`
`allowNumericLeadingZeros` 類型:`Boolean` (英文) 是否允許整數以附加的 (可略過的) 零開頭 (例如 `000001`)。預設值：`false`
`allowSingleQuotes` 類型:`Boolean` (英文) 是否允許使用單引號 (撇號字元 `'\'`) 來引用字串 (名稱和字串值)。預設值：`true`
`allowUnquotedControlChars` 類型:`Boolean` (英文) 是否允許 JSON 字串包含未逸出的控制字元 (值小於 32 的 ASCII 字元，包括定位字元和換行字元)。預設值：`false`
`allowUnquotedFieldNames` 類型:`Boolean` (英文) 是否允許使用未加上引號的欄位名稱 (JavaScript 允許，但 JSON 規格不允許)。預設值：`false`
`badRecordsPath` 類型:`String` (英文) 用於記錄有關錯誤 JSON 記錄的資訊的檔案儲存路徑。預設值：無
`columnNameOfCorruptRecord` 類型:`String` (英文) 儲存格式錯誤且無法剖析的記錄的資料行。如果用於剖析的 `mode` 設定為 `DROPMALFORMED`，則此資料行將為空。預設值：`_corrupt_record`
`dateFormat` 類型:`String` (英文) 用於剖析日期字串的格式。預設值：`yyyy-MM-dd`
`dropFieldIfAllNull` 類型:`Boolean` (英文) 是否要在結構描述推斷期間略過所有 Null 值或空陣列和結構的資料行。預設值：`false`
`encoding` 或 `charset` 類型:`String` (英文) JSON 檔案編碼的名稱。如需選項清單，請參閱 `java.nio.charset.Charset`。當 `multiline` 為 `true` 時，您無法使用 `UTF-16` 和 `UTF-32`。預設值：`UTF-8`
`inferTimestamp` 類型:`Boolean` (英文) 是否嘗試將時間戳記字串推斷為 `TimestampType`。設定為 `true` 時，結構描述推斷可能需要明顯更長的時間。您必須啟用 `cloudFiles.inferColumnTypes`，才能與自動載入器搭配使用。預設值：`false`
`lineSep` 類型:`String` (英文) 兩筆連續 JSON 記錄之間的字串。預設值：無，其中涵蓋 `\r`、`\r\n` 和 `\n`
`locale` 類型:`String` (英文) `java.util.Locale` 識別碼。影響 JSON 內的預設日期、時間戳記和十進位剖析。預設值：`US`
`mode` 類型:`String` (英文) 圍繞處理格式錯誤的記錄的剖析器模式。下列其中一項：`'PERMISSIVE'`、 `'DROPMALFORMED'` 或 `'FAILFAST'`。預設值：`PERMISSIVE`
`multiLine` 類型:`Boolean` (英文) JSON 記錄是否跨越多行。預設值：`false`
`prefersDecimal` 類型:`Boolean` (英文) 如果可能，嘗試將字串推斷為 `DecimalType` 而不是浮點型或雙精確度型。還必須透過啟用以下項來使用結構描述推斷： `inferSchema` 或將 `cloudFiles.inferColumnTypes` 與自動載入器搭配使用。預設值：`false`
`primitivesAsString` 類型:`Boolean` (英文) 是否將數字和布林值等基本類型推斷為 `StringType`。預設值：`false`
`readerCaseSensitive` 類型:`Boolean` (英文) 指定啟用 `rescuedDataColumn` 時區分大小寫的行為。如果為 true，則修復名稱因大小寫而與結構描述不同的資料行；否則，請以不區分大小寫的方式讀取資料。在 Databricks Runtime 13.3 和更新版本中可用。預設值：`true`
`rescuedDataColumn` 類型:`String` (英文) 是否將因資料類型不符或結構描述不符 (包括資料行大小寫) 而無法剖析的所有資料收集至個別資料行。使用自動載入器時，預設包含此資料行。如需詳細資料，請參閱什麼是修復的資料行？。預設值：無
`singleVariantColumn` 類型:`String` (英文) 是否擷取整個 JSON 文件，將其剖析為以指定字串作為資料行名稱的單一 Variant 資料行。如果停用，JSON 欄位將會擷取至自己的資料行。預設值：無
`timestampFormat` 類型:`String` (英文) 用於剖析時間戳記字串的格式。預設值：`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 類型:`String` (英文) 剖析時間戳記和日期時要使用的 `java.time.ZoneId`。預設值：無

`CSV` 選項

選項
`badRecordsPath` 類型:`String` (英文) 用於記錄有關錯誤 CSV 記錄的資訊的檔案儲存路徑。預設值：無
`charToEscapeQuoteEscaping` 類型:`Char` (英文) 用於對逸出引號的字元進行逸出的字元。例如，對於下列記錄：`[ " a\\", b ]`： - 如果未定義用於逸出 `'\'` 的字元，則不會剖析記錄。剖析器會將字元讀取為 `[a],[\],["],[,],[ ],[b]`，並擲回錯誤，因為它找不到右引號。 - 如果要逸出 `'\'` 的字元定義為 `'\'`，則讀取的記錄會帶有 2 個值：`[a\]` 和 `[b]`。預設值：`'\0'`
`columnNameOfCorruptRecord` > [!NOTE] >> 支援自動載入器。不支援 `COPY INTO`。類型:`String` (英文) 儲存格式錯誤且無法剖析的記錄的資料行。如果用於剖析的 `mode` 設定為 `DROPMALFORMED`，則此資料行將為空。預設值：`_corrupt_record`
`comment` 類型:`Char` (英文) 定義表示行註解的字元 (位於文字行的開頭時)。使用 `'\0'` 來停用註解略過。預設值：`'\u0000'`
`dateFormat` 類型:`String` (英文) 用於剖析日期字串的格式。預設值：`yyyy-MM-dd`
`emptyValue` 類型:`String` (英文) 空值的字串表示法。預設值：`""`
`encoding` 或 `charset` 類型:`String` (英文) CSV 檔案編碼的名稱。如需選項清單，請參閱 `java.nio.charset.Charset`。當 `UTF-16` 為 `true` 時，不能使用 `multiline` 和 `UTF-32`。預設值：`UTF-8`
`enforceSchema` 類型:`Boolean` (英文) 是否將指定的或推斷的結構描述強制套用於 CSV 檔案。如果啟用此選項，則會略過 CSV 檔案的標頭。根據預設，當使用自動載入器來修復資料並允許結構描述演進時，會略過此選項。預設值：`true`
`escape` 類型:`Char` (英文) 剖析資料時要使用的逸出字元。預設值：`'\'`
`header` 類型:`Boolean` (英文) CSV 檔案是否包含標頭。自動載入器在推斷結構描述時，假設檔案具有標頭。預設值：`false`
`ignoreLeadingWhiteSpace` 類型:`Boolean` (英文) 是否略過每個所剖析值的前置空白字元。預設值：`false`
`ignoreTrailingWhiteSpace` 類型:`Boolean` (英文) 是否略過每個所剖析值的後置空白字元。預設值：`false`
`inferSchema` 類型:`Boolean` (英文) 是推斷所剖析 CSV 記錄的資料類型，還是假設所有資料行都是 `StringType`。如果設定為 `true`，則需要對資料進行另一輪作業。針對 [自動載入器]，請改用 `cloudFiles.inferColumnTypes`。預設值：`false`
`lineSep` 類型:`String` (英文) 兩筆連續 CSV 記錄之間的字串。預設值：無，其中涵蓋 `\r`、`\r\n` 和 `\n`
`locale` 類型:`String` (英文) `java.util.Locale` 識別碼。影響 CSV 內的預設日期、時間戳記和十進位剖析。預設值：`US`
`maxCharsPerColumn` 類型:`Int` (英文) 要剖析的值預期包含的字元數上限。可用於避免記憶體錯誤。預設為 `-1`，這表示無限制。預設值：`-1`
`maxColumns` 類型:`Int` (英文) 記錄可以包含的資料行數的硬性限制。預設值：`20480`
`mergeSchema` 類型:`Boolean` (英文) 是否要跨多個檔案推斷結構描述，以及合併每個檔案的結構描述。已預設在推斷結構描述時為自動載入器啟用。預設值：`false`
`mode` 類型:`String` (英文) 圍繞處理格式錯誤的記錄的剖析器模式。下列其中一項：`'PERMISSIVE'`、 `'DROPMALFORMED'` 和 `'FAILFAST'`。預設值：`PERMISSIVE`
`multiLine` 類型:`Boolean` (英文) CSV 記錄是否跨多行。預設值：`false`
`nanValue` 類型:`String` (英文) 剖析 `FloatType` 和 `DoubleType` 資料行時，非數值的字串表示法。預設值：`"NaN"`
`negativeInf` 類型:`String` (英文) 剖析 `FloatType` 或 `DoubleType` 資料行時，負無限大的字串表示法。預設值：`"-Inf"`
`nullValue` 類型:`String` (英文) Null 值的字串表示法。預設值：`""`
`parserCaseSensitive` (已取代) 類型:`Boolean` (英文) 讀取檔案時，將標頭中宣告的資料行與結構描述對齊時是否區分大小寫。對於自動載入器，此選項預設為 `true`。如果啟用，則會在 `rescuedDataColumn` 中修復大小寫不同的資料行。此選項已取代為 `readerCaseSensitive`。預設值：`false`
`positiveInf` 類型:`String` (英文) 剖析 `FloatType` 或 `DoubleType` 資料行時，正無限大的字串表示法。預設值：`"Inf"`
`preferDate` 類型:`Boolean` (英文) 如果可能，嘗試將字串推斷為日期而不是時間戳記。還必須透過啟用 `inferSchema` 或將 `cloudFiles.inferColumnTypes` 與自動載入器搭配使用來使用結構描述推斷。預設值：`true`
`quote` 類型:`Char` (英文) 當欄位分隔符號是值的一部分時用於逸出值的字元。預設值：`"`
`readerCaseSensitive` 類型:`Boolean` (英文) 指定啟用 `rescuedDataColumn` 時區分大小寫的行為。如果為 true，則修復名稱因大小寫而與結構描述不同的資料行；否則，請以不區分大小寫的方式讀取資料。預設值：`true`
`rescuedDataColumn` 類型:`String` (英文) 是否將因資料類型不符和結構描述不符 (包括資料行大小寫) 而無法剖析的所有資料收集至個別資料行。使用自動載入器時，預設包含此資料行。如需詳細資料，請參閱什麼是修復的資料行？。預設值：無
`sep` 或 `delimiter` 類型:`String` (英文) 資料行之間的分隔符號字串。預設值：`","`
`skipRows` 類型:`Int` (英文) CSV 檔案開頭應略過的資料列數 (包括註解資料列和空資料列)。如果 `header` 為 true，則標頭將是第一個未略過和未註解的資料列。預設值：`0`
`timestampFormat` 類型:`String` (英文) 用於剖析時間戳記字串的格式。預設值：`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` 類型:`String` (英文) 剖析時間戳記和日期時要使用的 `java.time.ZoneId`。預設值：無
`unescapedQuoteHandling` 類型:`String` (英文) 處理未逸出引號的策略。允許的選項： - `STOP_AT_CLOSING_QUOTE`：如果在輸入中發現了未逸出的引號，則會累積引號字元並繼續將值剖析為帶引號的值，直至找到右引號。 - `BACK_TO_DELIMITER`：如果在輸入中發現了未逸出的引號，則會將此值視為未加上引號的值。這會使剖析器累積目前剖析值的所有字元，直到找到 `sep` 定義的分隔符號。如果在值中找不到分隔符號，剖析器會繼續從輸入累積字元，直至找到分隔符號或行尾結束符號為止。 - `STOP_AT_DELIMITER`：如果在輸入中發現了未逸出的引號，則會將此值視為未加上引號的值。這會使剖析器累積所有字元，直至在輸入中找到 `sep` 定義的分隔符號或找到行尾結束符號。 - `SKIP_VALUE`：如果在輸入中發現未逸出的引號，則將略過針對指定值剖析的內容 (直至找到下一個分隔符號)，並將改為產生 `nullValue` 中設定的值。 - `RAISE_ERROR`：如果在輸入中發現未逸出的引號，則會擲回 `TextParsingException`。預設值：`STOP_AT_DELIMITER`

`XML` 選項

選項	描述	範圍
`rowTag`	要視為資料列的 XML 檔案的資料列標籤。在範例 XML `<books> <book><book>...<books>` 中，適當的值為 `book`。這是必要選項。	已讀
`samplingRatio`	定義用於結構描述推斷的資料列的一部分。 XML 內建函數會略過此選項。預設值：`1.0`。	已讀
`excludeAttribute`	是否要排除元素中的屬性。預設值：`false`。	已讀
`mode`	在剖析期間處理損毀記錄的模式。 `PERMISSIVE`：對於損毀的記錄，將格式錯誤的字串放入由 `columnNameOfCorruptRecord` 設定的欄位中，並將格式錯誤的欄位設定為 `null`。若要保留損毀的記錄，您可以在使用者定義的結構描述中設定名為 `string` 的 `columnNameOfCorruptRecord` 類型欄位。如果結構描述沒有欄位，剖析期間會捨棄損毀的記錄。推斷結構描述時，剖析器會隱含地在輸出結構描述中新增 `columnNameOfCorruptRecord` 欄位。 `DROPMALFORMED`：略過損毀的記錄。 XML 內建函數不支援此模式。 `FAILFAST`：剖析器遇到損毀的記錄時擲回例外狀況。	已讀
`inferSchema`	如果為 `true`，則嘗試推斷每個產生的 DataFrame 資料行的適當類型。如果為 `false`，則所有產生的資料行都是 `string` 類型。預設： `true`. XML 內建函數會略過此選項。	已讀
`columnNameOfCorruptRecord`	允許重新命名包含由 `PERMISSIVE` 模式建立的格式錯誤的字串的新欄位。預設值：`spark.sql.columnNameOfCorruptRecord`。	已讀
`attributePrefix`	屬性的前置詞，用於區分屬性與元素。這將是欄位名稱的前置詞。預設值為 `_`。讀取 XML 時可以為空，但寫入時不能為空。	讀取、寫入
`valueTag`	此標籤用於同時具有屬性的元素或子元素的元素內的字元資料。使用者可以在結構描述中指定 `valueTag` 欄位，或者當字元資料存在於具有其他元素或屬性的元素中時，該欄位將在結構描述推斷期間自動新增。預設：`_VALUE`	讀取、寫入
`encoding`	對於讀取，請依指定的編碼類型解碼 XML 檔案。對於寫入，請指定已儲存 XML 檔案的編碼 (字元集)。 XML 內建函數會略過此選項。預設值：`UTF-8`。	讀取、寫入
`ignoreSurroundingSpaces`	定義是否應略過正在讀取的值周圍的空白字元。預設值：`true`。將略過只有空白字元的字元資料。	已讀
`rowValidationXSDPath`	選用 XSD 檔案的路徑，用於個別驗證每個資料列的 XML。無法驗證的資料列視為上述剖析錯誤。 XSD 不會以其他方式影響提供或推斷的結構描述。	已讀
`ignoreNamespace`	如果為 `true`，則略過 XML 元素和屬性上的命名空間前置詞。例如，標籤 `<abc:author>` 和 `<def:author>` 視為兩者都只是 `<author>`。無法略過 `rowTag` 元素上的命名空間，只略過其讀取子元素。即使為 `false`，XML 剖析也不會識別命名空間。預設值：`false`。	已讀
`timestampFormat`	遵循日期時間模式格式的自訂時間戳記格式字串。這適用於 `timestamp` 類型。預設值：`yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`。	讀取、寫入
`timestampNTZFormat`	遵循日期時間模式格式的不帶時區的自訂時間戳記格式字串。這適用於 TimestampNTZType 類型。預設： `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	讀取、寫入
`dateFormat`	遵循日期時間模式格式的自訂日期格式字串。這適用於日期類型。預設值：`yyyy-MM-dd`。	讀取、寫入
`locale`	將地區設定設為 IETF BCP 47 格式的語言標籤。例如，在剖析日期和時間戳記時使用 `locale`。預設值：`en-US`。	已讀
`rootTag`	XML 檔案的根標籤。例如，在 `<books> <book><book>...</books>` 中，適當的值為 `books`。您可以透過指定類似 `books foo="bar"` 的值來包含基本屬性。預設值：`ROWS`。	write
`declaration`	要在每個輸出 XML 檔案的開頭 (在 `rootTag` 之前) 寫入的 XML 宣告內容。例如，`foo` 的值會導致寫入 `<?xml foo?>`。設定空字串以隱藏。預設值：`version="1.0"` `encoding="UTF-8" standalone="yes"`.	write
`arrayElementName`	寫入時將陣列值資料行的每個元素括起來的 XML 元素的名稱。預設值：`item`。	write
`nullValue`	設定 null 值的字串表示法。預設值：字串 `null`。當這是 `null` 時，剖析器不會為欄位寫入屬性和元素。	讀取、寫入
`compression`	儲存至檔案時使用的壓縮碼。這可以是已知不區分大小寫的縮寫名稱之一 (`none`、`bzip2`、`gzip`、`lz4`、`snappy` 和 `deflate`). XML 內建函數會略過此選項。預設值：`none`。	write
`validateName`	如果為 true，則當 XML 元素名稱驗證失敗時擲回錯誤。例如，SQL 欄位名稱可以有空格，但 XML 元素名稱不能有空格。預設值： `true`.	write
`readerCaseSensitive`	指定啟用 rescuedDataColumn 時區分大小寫的行為。如果為 true，則修復名稱因大小寫而與結構描述不同的資料行；否則，請以不區分大小寫的方式讀取資料。預設值：`true`。	已讀
`rescuedDataColumn`	是否將因資料類型不符和結構描述不符 (包括資料行大小寫) 而無法剖析的所有資料收集至個別資料行。使用自動載入器時，預設包含此資料行。如需詳細資料，請參閱什麼是修復的資料行？。預設值：無。	已讀

`PARQUET` 選項

選項
`datetimeRebaseMode` 類型:`String` (英文) 控制 DATE 和 TIMESTAMP 值在凱撒曆與前西曆之間的重訂基底。允許的值：`EXCEPTION`、`LEGACY` 和 `CORRECTED`. 預設值：`LEGACY`
`int96RebaseMode` 類型:`String` (英文) 控制 INT96 時間戳記值在凱撒曆與前西曆之間的重訂基底。允許的值：`EXCEPTION`、`LEGACY` 和 `CORRECTED`. 預設值：`LEGACY`
`mergeSchema` 類型:`Boolean` (英文) 是否要跨多個檔案推斷結構描述，以及合併每個檔案的結構描述。預設值：`false`
`readerCaseSensitive` 類型:`Boolean` (英文) 指定啟用 `rescuedDataColumn` 時區分大小寫的行為。如果為 true，則修復名稱因大小寫而與結構描述不同的資料行；否則，請以不區分大小寫的方式讀取資料。預設值：`true`
`rescuedDataColumn` 類型:`String` (英文) 是否將因資料類型不符和結構描述不符 (包括資料行大小寫) 而無法剖析的所有資料收集至個別資料行。使用自動載入器時，預設包含此資料行。如需詳細資料，請參閱什麼是修復的資料行？。預設值：無

`AVRO` 選項

選項
`avroSchema` 類型:`String` (英文) 使用者以 Avro 格式提供的選用結構描述。讀取 Avro 時，可以將此選項設定為一個演進的結構描述，該結構描述與實際 Avro 結構描述相容但不同。還原序列化結構描述會與演進的結構描述保持一致。例如，如果您設定的演進結構描述包含一個具有預設值的其他資料行，則讀取結果也會包含該新資料行。預設值：無
`datetimeRebaseMode` 類型:`String` (英文) 控制 DATE 和 TIMESTAMP 值在凱撒曆與前西曆之間的重訂基底。允許的值：`EXCEPTION`、`LEGACY` 和 `CORRECTED`. 預設值：`LEGACY`
`mergeSchema` 類型:`Boolean` (英文) 是否要跨多個檔案推斷結構描述，以及合併每個檔案的結構描述。 Avro 的 `mergeSchema` 不會放寬資料類型。預設值：`false`
`readerCaseSensitive` 類型:`Boolean` (英文) 指定啟用 `rescuedDataColumn` 時區分大小寫的行為。如果為 true，則修復名稱因大小寫而與結構描述不同的資料行；否則，請以不區分大小寫的方式讀取資料。預設值：`true`
`rescuedDataColumn` 類型:`String` (英文) 是否將因資料類型不符和結構描述不符 (包括資料行大小寫) 而無法剖析的所有資料收集至個別資料行。使用自動載入器時，預設包含此資料行。如需詳細資料，請參閱什麼是修復的資料行？。預設值：無

`BINARYFILE` 選項

二進位檔案沒有任何額外的組態選項。

`TEXT` 選項

選項
`encoding` 類型:`String` (英文) TEXT 檔案編碼的名稱。如需選項清單，請參閱 `java.nio.charset.Charset`。預設值：`UTF-8`
`lineSep` 類型:`String` (英文) 兩筆連續 TEXT 記錄之間的字串。預設值：無，其中涵蓋 `\r`、`\r\n` 和 `\n`
`wholeText` 類型:`Boolean` (英文) 是否要將檔案讀取為單一記錄。預設值：`false`

`ORC` 選項

選項
`mergeSchema` 類型:`Boolean` (英文) 是否要跨多個檔案推斷結構描述，以及合併每個檔案的結構描述。預設值：`false`

分享方式：

`COPY INTO`

語法

參數

同時叫 `COPY INTO` 用

存取檔案元數據

格式選項

泛型選項

`JSON` 選項

`CSV` 選項

`XML` 選項

`PARQUET` 選項

`AVRO` 選項

`BINARYFILE` 選項

`TEXT` 選項

`ORC` 選項

意見反映

更多資源

分享方式：

COPY INTO

語法

參數

同時叫 COPY INTO 用

存取檔案元數據

格式選項

泛型選項

JSON 選項

CSV 選項

XML 選項

PARQUET 選項

AVRO 選項

BINARYFILE 選項

TEXT 選項

ORC 選項

相關文章

意見反映

更多資源

`COPY INTO`

同時叫 `COPY INTO` 用

`JSON` 選項

`CSV` 選項

`XML` 選項

`PARQUET` 選項

`AVRO` 選項

`BINARYFILE` 選項

`TEXT` 選項

`ORC` 選項