事件
3月31日 下午11時 - 4月2日 下午11時
最大的網狀架構、Power BI 和 SQL 學習事件。 3 月 31 日 - 4 月 2 日。 使用程式代碼 FABINSIDER 來節省 $400 美元。
立即註冊
適用於:Azure Data Factory
Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
Integration Runtime (IR) 是 Azure Data Factory 和 Azure Synapse 管線在不同網路環境中提供下列資料整合功能的計算基礎結構:
在 Data Factory 和 Synapse 管線中,活動可以定義要執行的動作。 連結服務可定義目標資料存放區或計算服務。 整合執行階段可以連接活動與連結服務。 鏈接的服務或活動參考,並提供直接或分派活動所在的計算環境。 此關聯可讓活動在最接近目標數據存放區或計算服務的區域執行,以將效能最大化,同時允許彈性地符合安全性和合規性需求。
整合運行時間可以直接透過 管理中樞 ,以及從任何參考它們的活動、數據集或數據流,在 Azure Data Factory 和 Azure Synapse UI 中建立。
Data Factory 提供三種 Integration Runtime (IR) 類型,建議您選擇最適合資料整合功能和最符合網路環境需求的類型。 三種 IR 類型如下:
注意
Synapse 管線目前僅支援 Azure 或自我裝載整合執行階段。
下表描述每個整合執行階段類型的功能和網路支援:
IR 類型 | 公用網路支援 | 私人連結支援 |
---|---|---|
Azure | 資料流程 資料移動 活動分派 |
資料流程 資料移動 活動分派 |
自我裝載 | 資料移動 活動分派 |
資料移動 活動分派 |
Azure-SSIS | SSIS 封裝執行 | SSIS 封裝執行 |
注意
輸出控制項會隨 Azure IR 的服務而異。 在 Synapse 中,工作區可以選擇在使用 Azure IR 時,限制來自受控虛擬網路的輸出流量。 使用 Azure IR 時,Data Factory 會開啟所有連接埠供輸出通訊使用。 Azure-SSIS IR 可以與您的虛擬網路整合,以提供 輸出通訊 控制。
Azure 整合執行階段可以:
Azure Integration Runtime 支援連線至具有公開存取端點的資料存放區和計算服務。 當您啟用受控 虛擬網絡 時,Azure Integration Runtime 支援在專用網環境中使用私人連結服務連線到數據存放區。 在 Synapse 中,工作區可以選擇限制來自 IR 受控虛擬網路的輸出流量。 在 Data Factory 中,所有連接埠都開放供輸出通訊使用。 Azure-SSIS IR 可以與您的虛擬網路整合,以提供 輸出通訊 控制。
Azure 整合執行階段在 Azure 中提供完全受控、無伺服器的計算。 您不必擔心基礎結構布建、軟體安裝、修補或容量調整。 此外,您只會在實際使用率期間支付費用。
Azure 整合執行階段提供原生計算,能夠以安全、可靠且高效能的方式,在雲端資料存放區之間移動資料。 您可以設定要在複製活動上使用的資料整合單位數量,Azure IR 的計算大小會彈性地因應擴大,您不必明確調整 Azure Integration Runtime 的大小。
活動分派是輕量型的作業,可將活動路由傳送至目標計算服務,所以在此情節中,不需要擴大計算大小。
如需有關建立與設定 Azure IR 的資訊,請參閱如何建立與設定 Azure Integration Runtime。
注意
Azure Integration Runtime 具有與資料流程執行階段相關的屬性,可定義用來執行資料流程的基礎計算基礎結構。
自我裝載 IR 能夠:
注意
使用自我裝載整合執行階段來支援需要自備驅動程式 (例如 SAP Hana、MySQL 等) 的資料存放區。如需詳細資訊,請參閱支援的資料存放區。
注意
Java Runtime Environment (JRE) 是自我裝載 IR 的相依性。 請確定您已在相同的主機上安裝 JRE。
如果想要在無法從公用雲端環境直接存取的私人網路環境中安全執行資料整合,您可以在防火牆後的內部部署環境或虛擬私人網路內安裝自我裝載 IR。 自我裝載整合執行階段只會建立對網際網路的 HTTP 型輸出連線。
請在私人網路內的內部部署機器或虛擬機器上安裝自我裝載 IR。 目前,我們只支援在 Windows 作業系統上執行自我裝載 IR。 若要達到高可用性和延展性,您可以在主動-主動模式下,將邏輯執行個體和多個內部部署機器產生關聯,以擴增自我裝載 IR。 如需詳細資訊,請參閱如何建立與設定自我裝載 IR一文。
若要隨即轉移現有的 SSIS 工作負載,您可以建立 Azure-SSIS IR,以原生方式執行 SSIS 套件。
Azure-SSIS IR 可以佈建在公用網路或私人網路中。 將 Azure-SSIS IR 加入已連線至內部網路的虛擬網路,即可支援內部部署資料存取。
Azure-SSIS IR 是一個完全受控的 Azure VM 叢集,專門用來執行您的 SSIS 套件。 您可以自備 Azure SQL Database 或 SQL 受控執行個體,供 SSIS 專案/套件 (SSISDB) 目錄使用。 指定節點大小可以擴大計算能力,指定叢集的節點數目可以擴增計算能力。 您可以依需求來停止和啟動 Azure-SSIS Integration Runtime,以管理執行成本。
如需詳細資訊,請參閱如何建立與設定 Azure-SSIS IR。 建立之後,您可以使用熟悉的工具,例如 SQL Server Data Tools (SSDT) 和 SQL Server Management Studio (SSMS),就像在內部部署環境中使用 SSIS 一樣,幾乎不需要變更就能部署與管理現有的 SSIS 套件。
如需 Azure-SSIS 執行階段的詳細資訊,請參閱下列文章:
當您建立 Data Factory 執行個體或 Synapse 工作區時,您需要指定其位置。 執行個體的中繼資料會儲存在這裡,然後從這裡起始管線觸發程序。 元數據只會儲存在所選區域中,而且不會儲存在其他區域中。
同時,管線可以存取其他 Azure 區域的資料存放區和計算資料,以在資料存放區之間移動資料或使用計算服務處理資料。 此行為會透過全域可用的 IR 來達成,以確保資料合規性、效率,並降低網路輸出成本。
IR 位置會定義其後端計算的位置,以及資料移動、活動分派和 SSIS 套件的執行位置。 IR 位置與其所屬 Data Factory 的位置可不相同。
您可以設定 Azure IR 的位置區域,在此情況下,活動執行或分派會在選取的區域發生。
預設值為在公用網路中自動解析 Azure IR。 使用此選項:
針對複製活動,請盡最大努力自動偵測接收數據存放區的位置,然後在相同區域中使用 IR,如果有的話,或相同地理位置中最接近的 IR;否則為;如果無法偵測接收數據存放區的區域,則會改用實例區域中的 IR。
例如,Data Factory 或 Synapse 工作區建立在美國東部,
提示
如果您有嚴格的數據合規性需求,而且需要確保數據不會離開特定地理位置,您可以在特定區域中明確建立 Azure IR,並使用 ConnectVia 屬性將鏈接服務指向此 IR。 例如,如果您想要將數據從英國南部的 Blob 複製到英國南部的 Azure Synapse 工作區,並想要確保數據不會離開英國,請在英國南部建立 Azure IR,並將這兩個連結服務連結至此 IR。
至於查閱/GetMetadata/Delete 活動執行 (管線活動)、轉換活動分派 (外部活動),以及撰寫作業 (測試連線、瀏覽資料夾清單和資料表清單,以及預覽資料),則會使用與 Data Factory 或 Synapse 工作區同區域中的 IR。
至於資料流程,會使用 Data Factory 或 Synapse 工作區區域中的 IR。
提示
最佳做法是確保資料流程盡可能在與對應資料存放區相同的區域中執行。 您可以使用 Azure IR 的自動解析來達成此目的(如果數據存放區位置與 Data Factory 或 Synapse 工作區位置相同),或是在與數據存放區相同的區域中建立新的 Azure IR 實例,然後在其上執行數據流。
如果您針對 Azure IR 啟用受控 虛擬網絡,則會使用 Data Factory 或 Synapse 工作區區域中的 IR。
您可以在 Data Factory Studio 或 Synapse Studio 的管線活動監視檢視或活動監視承載中,監視活動執行期間生效的 IR 位置。
自我裝載 IR 在邏輯上會向 Data Factory 或 Synapse 工作區註冊,但用以支援其功能的計算則由您提供。 因此,自我裝載 IR 沒有明確的位置屬性。
用來執行資料移動時,自我裝載 IR 會從來源取出資料,並寫入目的地。
注意
Synapse 管線目前不支援 Azure-SSIS 整合運行時間。
為您的 Azure-SSIS IR 選取正確的位置,對於在擷取、轉換和載入 (ETL) 工作流程中達到高效能至關重要。
下圖顯示 Data Factory 及其整合執行階段的位置設定:
如果活動與一種以上的整合運行時間相關聯,它會解析為其中一種。 自我裝載整合執行階段優先於使用受控虛擬網路之 Azure Data Factory 或 Synapse 工作區執行個體中的 Azure 整合執行階段。 後者又優先於全域 Azure 整合執行階段。
例如,使用一個複製活動將資料從來源複製到接收器。 全域 Azure 整合執行階段與來源連結服務相關聯,而 Azure Data Factory 受控虛擬網路中的 Azure 整合執行階段則與接收器連結服務相關聯,結果就是來源和接收器連結服務都使用 Azure Data Factory 受控虛擬網路中的 Azure 整合執行階段。 但是,如果自我裝載整合運行時間與來源的連結服務相關聯,則來源和接收連結服務都會使用自我裝載整合運行時間。
複製活動需要來源和接收器連結服務定義資料流程的方向。 下列邏輯可決定使用哪個整合執行階段執行個體來執行複製:
查閱和 GetMetadata 的活動會在與資料存放區連結服務相關聯的整合執行階段上執行。
每個利用外部計算引擎的外部轉換活動都有一個指向整合執行階段的目標計算連結服務。 這個 IR 執行個體決定分派外部手動編碼轉換活動的位置。
資料流程活動會在相關聯的 Azure 整合執行階段上執行。 Azure IR 中的數據流屬性會決定使用的 Spark 計算,並由服務完全管理。
整合執行階段不會經常變更,且在 CI/CD 的所有階段中都類似。 Data Factory 要求在 CI/CD 的所有階段中,要有相同的名稱和相同類型的整合執行階段。 如果您想要在所有階段中共用整合執行階段,請考慮使用只包含共用整合執行階段的專用處理站。 然後即可在所有環境中,使用此共用處理站作為連結的整合執行階段類型。
請參閱以下文章:
事件
3月31日 下午11時 - 4月2日 下午11時
最大的網狀架構、Power BI 和 SQL 學習事件。 3 月 31 日 - 4 月 2 日。 使用程式代碼 FABINSIDER 來節省 $400 美元。
立即註冊訓練
認證
Microsoft Certified: Azure Data Engineer Associate - Certifications
展現對常見資料工程工作的了解,以使用多種 Azure 服務在 Microsoft Azure 上實作和管理資料工程工作負載。
文件
為您的情節選擇正確的整合執行階段設定 - Azure Data Factory
每個整合執行階段的一些建議架構。
新增 Azure 整合執行階段 - Azure Data Factory & Azure Synapse
了解如何在 Azure Data Factory 和 Azure Synapse Analytics 中建立 Azure 整合執行階段,其可用來複製資料和分派轉換活動。
建立自我裝載整合執行階段 - Azure Data Factory & Azure Synapse
了解如何在 Azure Data Factory 和 Azure Synapse Analytics 中建立自我裝載整合執行階段,讓管線能夠存取私人網路中的資料存放區。