在複製活動中設定 Azure Data Lake 儲存體 Gen2
本文概述如何使用數據管線中的複製活動,從 Azure Data Lake 儲存體 Gen2 複製數據。
支援的格式
Azure Data Lake 儲存體 Gen2 支援下列檔格式。 如需以格式為基礎的設定,請參閱每個文章。
支援的組態
如需複製活動下每個索引標籤的設定,請分別移至下列各節。
一般
請參閱一般設定指引,以設定 [一般設定] 索引卷標。
來源
在複製活動的 [來源] 索引卷標下,Azure Data Lake 儲存體 Gen2 支援下列屬性。
需要下列屬性:
數據存放區類型:選取 [外部]。
連線:從聯機清單中選取 Azure Data Lake 儲存體 Gen2 連線。 如果沒有連線,請選取 [新增],以建立新的 Azure Data Lake 儲存體 Gen2 連線。
連線 類型:選取 [Azure Data Lake 儲存體 Gen2]。
檔案路徑類型:您可以選擇 [ 檔案路徑]、 [通配符檔案路徑] 或 [檔案清單 ] 作為檔案路徑類型。 這些設定的組態如下:
檔案路徑:如果您選擇此類型,可以從先前指定的檔案系統或資料夾/檔案路徑複製數據。
通配符檔案路徑:如果您選擇此類型,請指定檔案系統和通配符路徑。
文件系統:Azure Data Lake 儲存體 Gen2 檔案系統名稱。
通配符路徑:使用指定檔案系統下的通配符指定資料夾或檔案路徑,以篩選來源資料夾或檔案。
允許的通配符為:
*
(比對零或多個字元)和?
(符合零或單一字元)。 如果您的資料夾名稱內有通配符或這個逸出字元,請使用^
來逸出 。 如需更多範例,請移至資料夾 和檔案篩選範例。通配符資料夾路徑:使用指定檔案系統下的通配符指定資料夾路徑,以篩選源資料夾。
通配符檔名:在指定的檔案系統 + 資料夾路徑 (或通配符資料夾路徑) 下,以通配符指定檔名來篩選來源檔案。
檔案清單:指出您想要複製指定的檔案集。 指定 [資料夾路徑] 和 [檔案路徑] 清單,以指向包含您要複製之檔案清單的文本檔,每行一個檔案一個檔案,也就是路徑的相對路徑。 如需更多範例,請移至檔案 清單範例。
資料夾路徑:指定指定檔案系統下資料夾的路徑。 此為必要。
檔案清單的路徑:指定文本文件的路徑,其中包含您要複製的檔案清單。
遞歸:指定數據是否以遞歸方式從子資料夾讀取,或僅從指定的資料夾讀取。 請注意,當選取 [遞歸] 且目的地是檔案型存放區時,不會在目的地複製或建立空的資料夾或子資料夾。 默認會選取此屬性,而且當您設定 [檔案路徑] 清單時,不會套用此屬性。
檔案格式:從下拉式清單中選取套用的檔案格式。 選取 [設定] 以設定檔案格式。 如需不同檔格式的設定,請參閱支援格式的文章以取得詳細資訊。
在 [進階] 底下,您可以指定下列欄位:
依上次修改的篩選:檔案會根據上次修改的日期進行篩選。 當您將檔案路徑類型設定為檔案清單時,此屬性不適用。
開始時間 (UTC):如果上次修改的時間大於或等於設定的時間,則會選取檔案。
結束時間 (UTC):如果上次修改時間小於設定的時間,則會選取檔案。
當 Start time (UTC) 具有 datetime 值,但 End time (UTC) 為 NULL 時,表示將選取上次修改屬性大於或等於 datetime 值的檔案。 當結束時間 (UTC) 具有日期時間值但 Start time (UTC) 為 NULL 時,表示上次修改屬性小於日期時間值的檔案將被選取。 屬性可以是 NULL,這表示不會將任何檔案屬性篩選套用至數據。
啟用數據分割探索:指定是否從檔案路徑剖析分割區,並將其新增為其他源數據行。 預設會取消選取它,而且當您使用二進位檔案格式時不受支援。
數據分割根路徑:啟用資料分割探索時,請指定絕對根路徑,以便將分割資料夾讀取為數據行。
如果未指定,則預設為
- 當您在來源上使用檔案路徑或檔案清單時,分割區根路徑是您設定的路徑。
- 當您使用通配符資料夾篩選時,分割區根路徑是第一個通配符之前的子路徑。
例如,假設您將路徑設定為
root/folder/year=2020/month=08/day=27
:- 如果您將分割區根路徑指定為
root/folder/year=2020
,除了檔案內的數據行之外,複製活動還會分別產生兩個數據行月和日,其值為 “08” 和 “27”。 - 如果未指定分割區根路徑,則不會產生任何額外的數據行。
並行連線上限:這個屬性表示活動執行期間,與數據存放區建立的並行連線上限。 只有在您想要限制並行連線時,才指定值。
其他數據行:新增其他數據行以儲存來源檔案的相對路徑或靜態值。 後者支持表達式。
Destination
在複製活動的 [目的地] 索引標籤下,Azure Data Lake 儲存體 Gen2 支援下列屬性。
需要下列屬性:
- 數據存放區類型:選取 [外部]。
- 連線:從聯機清單中選取 Azure Data Lake 儲存體 Gen2 連線。 如果沒有連線存在,請選取 [新增],以建立新的 Azure Data Lake 儲存體 Gen2 連線。
- 連線 類型:選取 [Azure Data Lake 儲存體 Gen2]。
- 檔案路徑:選取 [ 瀏覽 ] 以選擇您要手動複製或填入路徑的檔案。
- 檔案格式:從下拉式清單中選取套用的檔案格式。 選取 [設定],以設定檔格式。 如需不同檔格式的設定,請參閱支援格式的文章以取得詳細資訊。
在 [進階] 底下,您可以指定下列欄位:
複製行為:當來源是檔案型數據存放區中的檔案時,定義複製行為。 您可以從下拉式清單中選擇行為。
- 扁平化階層:來自源資料夾的所有檔案都位於目的地資料夾的第一層。 目的地檔案具有自動產生的名稱。
- 合併檔案:將所有檔案從源資料夾合併到一個檔案。 如果指定檔名,合併的檔名就是指定的名稱。 否則,它是自動產生的檔名。
- 保留階層:保留目標資料夾中的檔案階層。 源檔案至源資料夾的相對路徑與目標檔案相對於目標資料夾的相對路徑相同。
並行連線上限:活動執行期間,與數據存放區建立的並行連線上限。 只有在您想要限制並行連線時,才指定值。
區塊大小 (MB):指定區塊大小,以 MB 為單位,用來將數據寫入 Azure Data Lake 儲存體 Gen2。 如需詳細資訊,請參閱 區塊 Blob。 允許的值介於 4 MB 到 100 MB 之間。
根據預設,區塊大小會根據您的來源存放區類型和數據自動決定。 對於非二進位複製至 Azure Data Lake 儲存體 Gen2,預設區塊大小為 100 MB,以容納最多 4.75 TB 的數據。 當數據不大時,可能不是最佳。 您可以明確指定區塊大小,同時確保 區塊大小 (MB)*50000 足以儲存數據,否則複製活動執行將會失敗。
元數據:在複製到目的地時設定自定義元數據。 數位下
metadata
的每個物件都代表額外的數據行。name
會定義元數據索引鍵名稱,而value
表示該索引鍵的數據值。 如果使用保留屬性功能,指定的元數據會與來源檔案元數據聯集/覆寫。允許的資料值為:
$$LASTMODIFIED
:保留變數表示儲存來源檔案上次修改時間。 僅適用於二進位格式的檔案型來源。- 運算式
- 靜態值
對應
針對 [對應] 索引標籤標組態,移至 [對應] 索引卷標底下的 [設定對應]。如果您選擇 [二進位] 作為檔案格式,則不支持對應。
設定
如需 [設定] 索引標籤組態,請移至 [設定] 索引卷標底下的 [設定其他設定]。
數據表摘要
下表包含 Azure Data Lake 儲存體 Gen2 中複製活動的詳細資訊。
來源資訊
名稱 | 描述: | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
數據存放區類型 | 您的資料存放區類型。 | 外部 | Yes | / |
[連接] | 您與源資料存放區的連線。 | <您的 Azure Data Lake 儲存體 Gen2 連線> | Yes | connection |
連線類型 | 您的連線類型。 選取 [Azure Data Lake 儲存體 Gen2]。 | Azure Data Lake Storage Gen2 \(部分機器翻譯\) | Yes | / |
檔案路徑類型 | 您想要使用的檔案路徑類型。 | • 檔案路徑 • 通配符資料夾路徑、通配符檔名 •檔案清單 |
Yes | • folderPath, fileName, fileSystem • wildcardFolderPath、wildcardFileName、fileSystem • folderPath、fileName、fileListPath |
遞 歸 | 指出數據是以遞歸方式從子資料夾讀取,還是只從指定的資料夾讀取。 請注意,當選取 [遞歸] 且目的地是檔案型存放區時,不會在目的地複製或建立空的資料夾或子資料夾。 當您設定 [檔案路徑] 列表時,此屬性不適用。 | selected (default) 或 unselect | No | 遞迴 |
依上次修改的篩選 | 在 [開始時間,結束時間] 範圍內具有上次修改時間的檔案,將會篩選出進一步處理。 時間會以的格式 yyyy-mm-ddThh:mm:ss.fffZ 套用至UTC時區。 您可以略過這些屬性,這表示不會套用任何檔案屬性篩選。 當您將檔案路徑類型設定為檔案清單時,此屬性不適用。 |
Datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
啟用數據分割探索 | 指出是否要從檔案路徑剖析分割區,並將其新增為其他源數據行。 | 已選取或未選取 (預設值) | No | enablePartitionDiscovery: true 或 false (預設值) |
數據分割根路徑 | 啟用資料分割探索時,請指定絕對根路徑,以便將分割區資料夾讀取為資料列。 | < 您的分割區根路徑 > | No | partitionRootPath |
並行連線上限 | 在活動執行期間,與數據存放區建立的並行連線上限。 只有在您想要限制並行連線時,才指定值。 | <最大並行連線> | No | maxConcurrent 連線 ions |
其他數據行 | 新增其他數據行以儲存來源檔案的相對路徑或靜態值。 後者支持表達式。 | •名字 •價值 |
No | additionalColumns: •名字 •價值 |
目的地資訊
名稱 | 描述: | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
數據存放區類型 | 您的資料存放區類型。 | 外部 | Yes | / |
[連接] | 您與目的地資料存放區的連線。 | <您的 Azure Data Lake 儲存體 Gen2 連線> | Yes | connection |
連線類型 | 您的連線類型。 選取 [Azure Data Lake 儲存體 Gen2]。 | Azure Data Lake Storage Gen2 \(部分機器翻譯\) | Yes | / |
檔案路徑 | 目的地數據的檔案路徑。 | < 您的檔案路徑 > | Yes | folderPath, fileName, fileSystem |
複製行為 | 當來源是檔案型數據存放區中的檔案時,定義複製行為。 | • 扁平化階層 • 合併檔案 • 保留階層 |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
並行連線上限 | 在活動執行期間,與數據存放區建立的並行連線上限。 只有在您想要限制並行連線時,才指定值。 | <最大並行連線> | No | maxConcurrent 連線 ions |
區塊大小 (MB) | 將數據寫入 Azure Data Lake 儲存體 Gen2 時,以 MB 指定區塊大小。 允許的值介於 4 MB 到 100 MB 之間。 | <區塊大小> | No | blockSizeInMB |
中繼資料 | 將自定義元數據複製到目的地時設定。 | • $$LASTMODIFIED •表達 • 靜態值 |
No | 中繼資料 |