用於擷取的 Azure 數據總管所支援的數據格式

發行項
06/10/2024

數據擷取是將數據新增至數據表的程式，可在 Azure 數據總管中查詢。若是透過查詢內嵌之外的擷取方法，資料必須是下列支援的格式：下表列出並描述 Azure 數據總管支持的數據擷取格式。

注意

內嵌資料前，請確定您的資料已正確格式化，並定義預期的欄位。建議您使用慣用的驗證程式來確認格式是否有效。例如，您可能看到下列驗證程式適合檢查 CSV 或 JSON 檔案：

CSV：http://csvlint.io/
JSON：https://jsonlint.com/

如需擷取失敗原因的詳細資訊，請參閱 Azure 數據總管中的擷取失敗和擷取錯誤碼。

格式	副檔名	描述
ApacheAvro	`.avro`	支援邏輯類型的 AVRO 格式。目前支援下列壓縮轉碼器：`null`、`deflate`和`snappy`。 `apacheavro`格式的讀取器實作是基於官方的 Apache Avro 程式庫。如需擷取事件中樞擷取 Avro 檔案的相關信息，請參閱擷取事件中樞擷取 Avro 檔案。
Avro	`.avro`	AVRO 格式的舊版實作是基於 .NET 程式庫。目前支援下列壓縮轉碼器：`null`、`deflate` (`snappy` - 使用`ApacheAvro`資料格式)。
CSV	`.csv`	具有逗號分隔值的文字檔 (`,`)。請參考RFC 4180：適用於逗點分隔值 (CSV) 檔案的一般格式和 MIME 類型。
JSON	`.json`	具有以 `\n` 或 `\r\n` 分隔的 JSON 文字檔。請參閱 JSON 程式碼行 (JSONL)。
MultiJSON	`.multijson`	文字檔，其中包含屬性包的 JSON 陣列 (每個屬性包都代表一筆記錄)，或任意多個以空白字元分隔的屬性包，`\n` 或 `\r\n`。每個屬性包都可以散佈在多行上。
ORC	`.orc`	ORC 檔案。
Parquet	`.parquet`	Parquet 檔案。
PSV	`.psv`	具有分隔號分隔值 (`\|`) 的文字檔。
RAW	`.raw`	其整個內容為單一字串值的文字檔。
SCsv	`.scsv`	具有分號分隔值 (`;`) 的文字檔。
SOHsv	`.sohsv`	具有 SOH 分隔值的文字檔。 (SOH 是 ASCII 字碼指標 1；此格式是由 HDInsight 上的 Hive 使用)。
TSV	`.tsv`	具有定位字元分隔值 (`\t`) 的文字檔。
TSVE	`.tsv`	具有定位字元分隔值 (`\t`) 的文字檔。反斜線字元 (`\`) 用於逸出。
TXT	`.txt`	具有以 `\n` 分隔之程式碼行的文字檔。會跳過空白行。
W3CLOGFILE	`.log`	W3C 標準化的 Web 記錄檔格式。

注意

不支援從在一般 Parquet 格式檔案上提供 ACID 功能的數據儲存系統擷取（例如 Apache Iceberg、Apache Hudi、Delta Lake）。
不支援無架構 Avro。
如需使用 json 或 multijson 格式擷取數據的詳細資訊，請參閱本檔。

支援的資料壓縮格式

您可透過下列任何壓縮演算法壓縮 blob 和檔案：

壓縮	副檔名
GZip	.gz
郵遞區號	.zip

在 blob 或檔案的名稱附加副檔名即可壓縮。

例如：

MyData.csv.zip指定 blob 或檔案格式化為 CSV，並使用 ZIP 壓縮 (封存或單一檔案)
MyData.json.gz指定 blob 或檔案格式化為 JSON，並使用 GZip 壓縮。

同樣支援不包含格式化副檔名，只有壓縮副檔名 (例如，MyData.zip) 的 blob 或檔案名稱。在此情況下，您必須將檔案格式指定為擷取屬性 (因為無法加以推斷)。

注意

某些壓縮格式會追蹤原始檔案副檔名，作為壓縮資料流程的一部分。通常會忽略此副檔名來判斷檔案格式。如果無法從 (壓縮的) Blob 或檔案名稱判斷檔案格式，則必須透過 format 擷取屬性來指定。
請勿與Parquet、AVRO和ORC格式使用的內部 (區塊層級) 壓縮編解碼器混淆。內部壓縮名稱通常在檔案格式副檔名前加上檔案名稱，例如：file1.gz.parquet、file1.snappy.avro等。
不支援Deflate64/Enhanced Deflate Zip 壓縮方法。請注意，Windows 內建 Zip 壓縮器可以選擇在大小超過 2GB 的檔案上使用這個壓縮方法。

深入了解資料擷取
深入瞭解 Azure 數據總管數據擷取屬性

共用方式為

用於擷取的 Azure 數據總管所支援的數據格式

支援的資料壓縮格式

意見反應

意見反應

其他資源

共用方式為

用於擷取的 Azure 數據總管所支援的數據格式

支援的資料壓縮格式

相關內容

意見反應

意見反應

其他資源