共用方式為


擷取支持的資料格式

適用於: ✅Microsoft網狀架構Azure 數據總管

數據擷取是將數據新增至數據表並可供查詢的程式。 若是透過查詢內嵌之外的擷取方法,資料必須是下列支援的格式: 下表列出並描述數據擷取支援的格式。

注意

內嵌資料前,請確定您的資料已正確格式化,並定義預期的欄位。 建議您使用慣用的驗證程式來確認格式是否有效。 例如,您可能看到下列驗證程式適合檢查 CSV 或 JSON 檔案:

如需擷取失敗原因的詳細資訊,請參閱 擷取失敗

擷取 Azure 資料總管中的錯誤碼。

格式 副檔名 描述
ApacheAvro .avro 支援邏輯類型AVRO 格式。 目前支援下列壓縮轉碼器:nulldeflatesnappyapacheavro格式的讀取器實作是基於官方的 Apache Avro 程式庫。 如需擷取事件中樞擷取 Avro 檔案的相關信息,請參閱 擷取事件中樞擷取 Avro 檔案
Avro .avro AVRO 格式的舊版實作是基於 .NET 程式庫。 目前支援下列壓縮轉碼器:nulldeflate (snappy - 使用ApacheAvro資料格式)。
CSV .csv 具有逗號分隔值的文字檔 (,)。 請參考RFC 4180:適用於逗點分隔值 (CSV) 檔案的一般格式和 MIME 類型。
JSON .json 具有以 \n\r\n 分隔的 JSON 文字檔。 請參閱 JSON 程式碼行 (JSONL)
MultiJSON .multijson 文字檔,其中包含屬性包的 JSON 陣列 (每個屬性包都代表一筆記錄),或任意多個以空白字元分隔的屬性包,\n\r\n。 每個屬性包都可以散佈在多行上。
ORC .orc ORC 檔案
Parquet .parquet Parquet 檔案
PSV .psv 具有分隔號分隔值 (|) 的文字檔。
RAW .raw 其整個內容為單一字串值的文字檔。
SCsv .scsv 具有分號分隔值 (;) 的文字檔。
SOHsv .sohsv 具有 SOH 分隔值的文字檔。 (SOH 是 ASCII 字碼指標 1;此格式是由 HDInsight 上的 Hive 使用)。
TSV .tsv 具有定位字元分隔值 (\t) 的文字檔。
TSVE .tsv 具有定位字元分隔值 (\t) 的文字檔。 反斜線字元 (\) 用於逸出。
TXT .txt 具有以 \n 分隔之程式碼行的文字檔。 會跳過空白行。
W3CLOGFILE .log W3C 標準化的 Web 記錄檔格式。

注意

  • 不支援從在一般 Parquet 格式檔案上提供 ACID 功能的數據儲存系統擷取(例如 Apache Iceberg、Apache Hudi、Delta Lake)。
  • 不支援無架構 Avro。

如需使用 jsonmultijson 格式擷取數據的詳細資訊,請參閱 內嵌 json 格式

支援的資料壓縮格式

您可透過下列任何壓縮演算法壓縮 blob 和檔案:

壓縮 副檔名
gzip .gz
zip .zip

在 blob 或檔案的名稱附加副檔名即可壓縮。

例如:

  • MyData.csv.zip 表示 Blob 或格式化為 CSV 的檔案,壓縮為 zip (封存或單一檔案)
  • MyData.json.gz 表示以 gzip 壓縮的 Blob 或檔案格式為 JSON 的檔案。

同樣支援不包含格式化副檔名,只有壓縮副檔名 (例如,MyData.zip) 的 blob 或檔案名稱。 在此情況下,您必須將檔案格式指定為擷取屬性 (因為無法加以推斷)。

注意

  • 某些壓縮格式會追蹤原始檔案副檔名,作為壓縮資料流程的一部分。 通常會忽略此副檔名來判斷檔案格式。 如果無法從 (壓縮的) Blob 或檔案名稱判斷檔案格式,則必須透過 format 擷取屬性來指定。
  • 請勿與ParquetAVROORC格式使用的內部 (區塊層級) 壓縮編解碼器混淆。 內部壓縮名稱通常在檔案格式副檔名前加上檔案名稱,例如:file1.gz.parquetfile1.snappy.avro等。
  • 不支援Deflate64/Enhanced Deflate zip 壓縮方法。 請注意,Windows 內建 zip 壓縮器可以選擇在大小超過 2GB 的檔案上使用這個壓縮方法。