新檔案抵達觸發程序作業
當新檔案抵達外部位置,例如 Amazon S3、Azure 記憶體或 Google Cloud 儲存體 時,您可以使用檔案抵達觸發程式來觸發 Azure Databricks 作業的執行。 當排程作業由於新資料不定期抵達而可能效率低下時,可以使用此功能。
檔案抵達觸發程式會盡最大努力每分鐘檢查新檔案,不過這可能會受到基礎雲端記憶體效能的影響。 檔案抵達觸發程式不會產生與儲存位置中列出檔案相關聯的雲端提供者成本以外的額外成本。
您可以設定檔案抵達觸發程式來監視 Unity 目錄外部位置或磁碟區的根目錄,或外部位置或磁碟區的子路徑。 例如,針對 Unity 目錄根磁碟區 /Volumes/mycatalog/myschema/myvolume/
,以下是檔案抵達觸發程式的有效路徑:
/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/
需求
使用檔案抵達觸發程式需要下列專案:
- 工作區必須 啟用 Unity 目錄。
- 您必須使用儲存位置,也就是 Unity 目錄磁碟區或新增至 Unity 目錄中繼存放區的外部位置。 請參閱 建立外部位置以將雲端記憶體連線到 Azure Databricks。
- 您必須具有
READ
記憶體位置的許可權,以及作業的 CAN MANAGE 許可權。 如需作業許可權的詳細資訊,請參閱 作業 ACL。
限制
- 最多可以使用 Azure Databricks 工作區中的檔案抵達觸發程式來設定五十個作業。
- 針對檔案抵達觸發程式所設定的儲存位置最多只能包含 10,000 個檔案。 無法監視具有更多檔案的位置是否有新的檔案抵達。 如果設定的儲存位置是 Unity 目錄外部位置或磁碟區的子路徑,則 10,000 個檔案限制會套用至子路徑,而不是儲存位置的根目錄。 例如,儲存位置的根目錄在其子目錄中可以包含超過 10,000 個檔案,但已設定的子目錄不能超過 10,000 個檔案限制。
- 用於檔案抵達觸發程序的路徑不得包含任何外部資料表或目錄和結構的受控位置。
新增檔案抵達觸發程式
若要將檔案抵達觸發程式新增至作業:
- 在提要欄位中,按兩下 [ 工作流程]。
- 在 [作業] 索引標籤上的 [名稱] 資料列中,按兩下作業名稱。
- 在右側的 [ 作業詳細數據 ] 面板中,按兩下 [ 新增觸發程式]。
- 在 [ 觸發程序類型] 中,選取 [ 檔案抵達]。
- 在 儲存體 位置中,輸入根目錄外部位置的 URL 或 Unity 目錄外部位置的子路徑或根目錄或要監視的 Unity 目錄磁碟區子路徑。
- (選擇性)設定進階選項:
- 觸發程式之間的最短時間,以秒為單位:在上一次執行完成之後,等待觸發執行的時間下限。 在此期間抵達的檔案只會在等候時間到期之後觸發執行。 使用此設定來控制執行建立的頻率。
- 以秒為單位等候最後一次變更:等待在檔案抵達後觸發執行的時間。 在此期間抵達的另一個檔案會重設定時器。 當檔案傳入批次時,可以使用此設定,而且所有檔案都到達之後,必須處理整個批次。
- 若要驗證組態,請按兩下 [ 測試連線]。
- 按一下 [檔案] 。
接收檔案抵達觸發程序失敗的通知
若要在檔案抵達觸發程序評估失敗時收到通知,請設定作業失敗時的電子郵件或系統目的地通知。 請參閱 新增工作事件的電子郵件和系統通知。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應