共用方式為


用於將 Netezza 資料倉儲移轉到 Azure Synapse Analytics 的工具

本文是七部分系列的第六部分,提供如何從 Netezza 移轉至 Azure Synapse Analytics 的指引。 本文重點為 Microsoft 和協力廠商工具的最佳做法。

資料倉儲移轉工具

藉由將現有的資料倉儲移轉到 Azure Synapse,您就能受益於:

  • 一個全域安全、可調整、低成本、雲端原生、隨用隨付的分析資料庫。

  • 存在於 Azure 上的豐富 Microsoft 分析生態系統。 此生態系統包含多項技術,可協助您在移轉資料倉儲之後將其現代化,並擴充您的分析功能以創造新的價值。

Microsoft 和協力廠商合作夥伴提供的數項工具,可協助您將現有的資料倉儲移轉到 Azure Synapse。 本文會討論下列類型的工具:

  • Microsoft 資料和資料庫移轉工具。

  • 協力廠商資料倉儲自動化工具,可自動化和記錄對 Azure Synapse 進行的移轉。

  • 協力廠商資料倉儲移轉工具,可將結構描述和資料移轉到 Azure Synapse。

  • 協力廠商工具,可橋接現有資料倉儲 DBMS 和 Azure Synapse 之間的 SQL 差異。

Microsoft 資料移轉工具

Microsoft 提供數項工具來協助您將現有的資料倉儲移轉到 Azure Synapse,例如:

  • Azure Data Factory

  • 適用於實體資料傳輸的 Microsoft 服務。

  • 適用於資料擷取的 Microsoft 服務。

下列各節會針對這些工具進行更詳細的討論。

Microsoft Azure Data Factory

Data Factory 是完全受控且隨用隨付的混合式資料整合服務,適用於高度可調整的 ETL 和 ELT 處理。 其使用 Apache Spark 處理及分析平行資料以及記憶體中的資料,以將輸送量最大化。

提示

Data Factory 可讓您建置可調整的無程式碼資料整合管線。

Data Factory 連接器可支援連接到外部資料來源和資料庫,並包含用於一般資料整合工作的範本。 視覺化前端瀏覽器型 UI 可讓非程式設計人員建立並執行管線,以內嵌、轉換和載入資料。 更有經驗的程式設計人員可以納入自訂程式碼,例如 Python 程式。

提示

Data Factory 有助於商務與 IT 專業人員之間的共同開發。

Data Factory 也是協調流程工具,以及將端對端移轉程式自動化的最佳 Microsoft 工具。 自動化可降低移轉的風險、精力和時間,並可讓您輕鬆重複移轉流程。 下圖顯示 Data Factory 中的對應資料流。

螢幕擷取畫面顯示 Data Factory 對應資料流的範例。

下一個螢幕擷取畫面會顯示 Data Factory 中的整頓資料流。

螢幕擷取畫面顯示 Data Factory 整頓資料流的範例。

在 Data Factory 中,您只要按幾下,就能開發簡單或完整的 ETL 和 ELT 程序,而不需要撰寫程式碼或進行維護。 ETL/ELT 流程包括內嵌、移動、準備、轉換和處理您的資料。 您可以在 Data Factory 中設計和管理排程和觸發程序,以打造自動化的資料整合與載入環境。 在 Data Factory 中,您可以定義、管理及排程 PolyBase 大量資料載入程序。

提示

Data Factory 包含可協助您將資料和整個資料倉儲移轉到 Azure 的工具。

您可以使用 Data Factory,以安全且一致的方式來實作和管理具有內部部署、雲端、串流和 SaaS 資料的混合式環境。 SaaS 資料可能來自 Salesforce 等應用程式。

整頓資料流是 Data Factory 的新功能。 此功能讓商務使用者能夠利用 Data Factory,以視覺化方式大規模探索、瀏覽和準備資料,而不需要撰寫程式碼。 整頓資料流提供自助資料準備,類似 Microsoft Excel、Power Query 和 Microsoft Power BI 資料流程。 商務使用者可以使用下拉式轉換選項,透過試算表樣式的使用者介面來準備和整合資料。

Data Factory 是在 Azure Synapse 環境中實作資料整合和 ETL/ELT 程序的建議方法,特別是在您想要重構現有舊程序的時候。

適用於實體資料傳輸的 Microsoft 服務

下列各節將討論 Microsoft 提供來協助客戶進行資料傳輸的一系列產品和服務。

Azure ExpressRoute

Azure ExpressRoute 會在 Azure 資料中心和內部部署或共置環境中的基礎結構之間建立私人連線。 ExpressRoute 連線不經過公用網際網路,相較於一般網際網路連線更為可靠、速度更快且延遲更低。 在某些情況下,藉由使用 ExpressRoute 連線在內部部署系統與 Azure 之間傳輸資料,您會獲得巨大的成本效益。

AzCopy

AzCopy 是命令列公用程式,可透過標準網際網路連線將檔案複製到 Azure Blob 儲存體。 在倉儲移轉專案中,您可以使用 AzCopy 來上傳擷取、壓縮、分隔的文字檔,然後使用 PolyBase 將檔案載入 Azure Synapse。 AzCopy 可以上傳個別檔案、選取的多個檔案或檔案資料夾。 若匯出的檔案採用 Parquet 格式,請改用原生 Parquet 讀取器。

Azure 資料箱

Azure 資料箱是一項 Microsoft 服務,可提供您專屬實體儲存體裝置,讓您複製移轉資料。 然後,您可將裝置寄送至 Azure 資料中心,以便將資料上傳至雲端儲存體。 此服務對於大量資料 (例如數十或數百 TB),或是在網路頻寬無法立即可用的情況下,可能會符合成本效益。 Azure 資料箱通常用於將大型一次性歷程記錄資料載入 Azure Synapse 中。

Azure 資料箱閘道服務

Azure 資料箱閘道是位於您內部部署的虛擬化雲端儲存空間閘道裝置,可將您的影像、媒體和其他資料傳送至 Azure。 您可以使用 Data Box Gateway 進行一次性移轉工作或持續累加式資料上傳。

適用於資料擷取的 Microsoft 服務

下列各節將討論 Microsoft 提供來協助客戶進行資料擷取的產品和服務。

COPY INTO

COPY INTO 陳述式提供最大的彈性,可將高輸送量資料擷取至 Azure Synapse。 如需 COPY INTO 功能的詳細資訊,請參閱 COPY (Transact-SQL)

PolyBase

PolyBase 是將資料大量載入 Azure Synapse 的最快速、最可調整的方法。 PolyBase 使用 Azure Synapse 的巨量平行處理 (MPP) 架構來平行載入資料,以達到最快的輸送量。 PolyBase 可以從 Azure Blob 儲存體中的一般檔案讀取資料,或透過連接器直接從外部資料來源和其他關聯式資料庫讀取資料。

提示

PolyBase 可將資料從 Azure Blob 儲存體平行載入到 Azure Synapse。

PolyBase 也可以直接從使用 gzip 壓縮的檔案讀取,這可減少載入流程中的實體資料量。 PolyBase 支援熱門的資料格式,例如分隔符號文字、ORC 和 Parquet。

提示

您可以從 Data Factory 叫用 PolyBase 作為移轉管線的一部分。

PolyBase 與 Data Factory 緊密整合,可支援快速開發資料載入 ETL/ELT 流程。 您可以透過視覺化 UI 排程資料載入流程來提高生產力,且錯誤會比手寫程式碼少。 Microsoft 建議使用 PolyBase 將資料擷取至 Azure Synapse,特別是針對大量資料擷取。

PolyBase 會使用 CREATE TABLE ASINSERT...SELECT 陳述式來載入資料。 CREATE TABLE AS 會將記錄壓到最小來達到最高的輸送量。 資料載入最有效率的輸入格式是壓縮的分隔文字檔。 如需最大輸送量,請將大型輸入檔分割成多個較小的檔案,然後平行載入這些檔案。 若要快速載入至暫存表格,請將目標表格定義為 HEAP 類型,並使用循環配置資源散發。

PolyBase 有一些限制:資料列長度必須小於 1 MB,且不支援固定寬度的巢狀格式,例如 JSON 和 XML。

Netezza 移轉的 Microsoft 合作夥伴

Microsoft 合作夥伴提供工具、服務和專業知識,協助您將舊版內部部署資料倉儲平台移轉至 Azure Synapse。

下一步

若要深入了解如何實作新式資料倉儲,請參閱本系列中的下一篇文章:不僅進行 Netezza 移轉,也在 Microsoft Azure 中實作新式資料倉儲