使用 Qlik 將大型機和中型機數據複製到 Azure
此解決方案使用 Qlik 的本地實例將本地數據源即時複製到 Azure。
備註
將 「Qlik」 發音為 「click」。
Apache® 和 Apache Kafkak® 是 Apache Software Foundation 在美國和/或其他國家/地區的註冊商標或商標。 使用這些標記不代表得到 Apache Software Foundation 的認可。
建築
下載此架構的 Visio 檔案。
工作流程
主機代理: 本地系統上的主機代理從 Db2、資訊管理系統 (IMS) 和虛擬存儲存取方法 (VSAM) 資料儲存中擷取更改日誌資訊,並將其傳遞到 Qlik 複製伺服器。
複製伺服器: Qlik 複製伺服器軟體將更改日誌資訊傳遞到 Kafka 和 Azure 事件中心。 在此示例中,Qlik 位於本地,但您可以將其部署在 Azure 中的虛擬機上。
推流: Kafka 和事件中心提供消息代理來接收和存儲更改日誌資訊。
Kafka 連接: Kafka Connect API 從 Kafka 接收數據以更新 Azure 數據存儲,例如 Azure Data Lake Storage、Azure Databricks 和 Azure Synapse Analytics。
Data Lake Storage: Data Lake Storage 是更改日誌數據的暫存區域。
Azure Databricks: Azure Databricks 處理更改日誌數據並更新 Azure 上的相應檔。
Azure 數據服務: Azure 提供以下高效的數據存儲服務。
關聯資料庫服務:
- Azure 虛擬機器上的 SQL Server
- Azure SQL 資料庫
- Azure SQL 受控實例
- 適用於 PostgreSQL 的 Azure 資料庫
- 適用於 MySQL 的 Azure 資料庫
- Azure Cosmos 資料庫
選擇數據存儲服務時,需要考慮許多因素。 考慮工作負載類型、跨資料庫查詢、兩階段提交要求、訪問文件系統的能力、數據量、所需的輸送量和延遲。
Azure Cosmos DB: Azure Cosmos DB 是一種 NoSQL 資料庫,可在任何規模下提供快速響應、自動可伸縮性和有保證的速度。
Azure Synapse Analytics: Azure Synapse Analytics 是一種分析服務,它結合了數據集成、企業數據倉庫和大數據分析。 使用它可以通過大規模使用無伺服器或專用資源來查詢數據。
Microsoft 結構: Microsoft Fabric 是面向企業的一體化分析解決方案。 它涵蓋了從數據移動到數據科學、即時分析和商業智慧的所有內容。 它提供一整套服務,包括數據湖、數據工程和數據集成。
元件
此體系結構由多個 Azure 雲服務組成,並分為四類資源:網路和標識、應用程式、存儲和監視。 以下部分介紹每個資源的服務及其角色。
網路和身分識別
在設計應用程式架構時,必須優先考慮網路和身份元件,以幫助確保通過公共 Internet 或私有連接進行交互期間的安全性、性能和可管理性。
Azure ExpressRoute 透過連接供應商的專用連接將本地網路擴展到 Microsoft 提供的雲服務中。 使用 ExpressRoute 建立與 Azure 和 Microsoft 365 等雲服務的連接。
Azure VPN 閘道 是一種特定類型的虛擬網路閘道,它通過公共 Internet 在 Azure 虛擬網路和本地位置之間發送加密流量。
Microsoft Entra ID 是一種身份和訪問管理服務,可以與本地 Active Directory 同步。
應用程式
Azure 提供的託管服務支援更安全、可縮放和更高效的應用程式部署。 此體系結構使用應用程式層服務,可説明您優化應用程序體系結構。
事件中心 是一個大數據流式處理平臺和事件攝取服務,可以存儲 Db2、IMS 和 VSAM 更改數據消息。 它每秒可以接收和處理數百萬條消息。 您可以使用即時分析提供者或自訂適配器轉換和儲存事件中心數據。
Apache Kafka 是一個開源分散式事件流平臺,用於高性能數據管道、流分析、數據集成和任務關鍵型應用程式。 它可以輕鬆地與 Qlik 數據整合以儲存 Db2 更改數據。
Data Lake Storage 提供了一個數據湖,用於存儲已處理的本地更改日誌數據。
Azure Databricks 是基於 Apache Spark 構建的基於雲的數據工程工具。 它可以處理和轉換大量數據。 您可以使用機器學習模型來瀏覽數據。 作業可以用 R、Python、Java、Scala 和 Spark SQL 編寫。
存儲和資料庫
此架構解決了可擴展且更安全的雲存儲以及託管資料庫問題,以實現靈活和智慧的數據管理。
Azure 儲存 是一組可大規模縮放且更安全的雲服務,適用於數據、應用和工作負載。 該服務包括 Azure Files、Azure 表儲存體和 Azure 佇列儲存體。 Azure 檔存儲是遷移大型機工作負載的有效工具。
Azure SQL 是一系列 SQL 雲資料庫,為應用程式遷移、現代化和開發提供了靈活的選項。 該系列包括:
Azure Cosmos DB 是一項完全託管的 NoSQL 資料庫服務,具有適用於 MongoDB 和 Cassandra 的開源 API。 可以使用它將大型機非表格數據遷移到 Azure。
Azure Database for PostgreSQL 是一種完全託管、智慧且可縮放的 PostgreSQL,它與 Azure 服務建立本機連接。
Azure Database for MySQL 是一個完全託管的可縮放 MySQL 資料庫。
監測
監控工具提供全面的數據分析和對應用程式性能的寶貴見解。
Azure Monitor 是一個全面的解決方案,用於從雲和本地環境收集、分析和處理遙測數據。 其中包含:
Application Insights,用於分析和呈現遙測數據。
Azure Monitor 日誌,用於從受監視的資源收集和組織日誌和性能數據。 可以將來自 Azure 平臺日誌、虛擬機代理和應用程式性能等源的數據合併到一個工作區中進行分析。 查詢語言支援分析您的記錄。
Log Analytics,可以查詢 Azure Monitor 日誌。 強大的查詢語言允許您聯接來自多個表的數據、聚合大型數據集,並使用最少的代碼執行複雜的作。
替代選擇
上圖顯示了本地安裝的Qlik。 此方法是推薦的最佳實踐,以使 Qlik 靠近本地數據源。 另一種方法是將Qlik安裝在 Azure 虛擬機上的雲中。
Qlik Data Integration 可以將數據直接交付到 Azure Databricks,而無需通過 Kafka 或事件中心。
Qlik Data Integration 無法將數據直接複製到 Azure Cosmos DB,但您可以使用事件溯源架構將 Azure Cosmos DB 與事件中心集成。
案例詳細資料
許多組織使用大型機和中型機系統來運行要求苛刻的關鍵工作負載。 大多數應用程式使用共享資料庫,通常跨多個系統。 在這種環境中,現代化到雲意味著必須將本地數據提供給基於雲的應用程式。 因此,數據複製成為一種重要的現代化策略。
Qlik Data Integration 平臺包括 Qlik Replicate,它執行數據複製。 它使用變更數據捕獲將本地數據儲存即時複製到 Azure。 更改數據可以來自 Db2、IMS 和 VSAM 更改紀錄。 這種複製技術消除了不方便的批量批量載入。 此解決方案使用 Qlik 的本地實例將本地數據源即時複製到 Azure。
潛在應用情境
此解決方案可能適用於:
需要將數據更改從大型機或中型機系統複製到 Azure 資料庫的混合環境。
從 Db2 到 Azure SQL 資料庫的線上資料庫遷移,停機時間短。
將數據從各種本地數據儲存複製到 Azure 以進行整合和分析。
考慮事項
這些考量能實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Well-Architected Framework。
可靠性
可靠性有助於確保您的應用程式可以符合您對客戶的承諾。 如需詳細資訊,請參閱可靠性的設計檢閱檢查清單。
Qlik Data Integration 可以在 high-availability 集群中配置。
Azure 資料庫服務支援區域冗餘,並且可以設計為在維護時段或發生中斷時故障轉移到輔助節點。
安全
安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱安全性的設計檢閱檢查清單。
ExpressRoute 提供從本地到 Azure 的專用高效連接,但你可以改用 網站到網站 VPN 。
可以使用 Microsoft Entra ID 對 Azure 資源進行身份驗證,並通過基於角色的訪問控制來管理許可權。
Azure 資料庫服務支援各種安全選項,例如:
靜態數據加密。
動態數據掩碼。
始終加密的資料庫。
有關詳細資訊,請參閱 Azure 安全文檔。
成本優化
成本優化著重於減少不必要的費用,並提升營運效率的方式。 如需詳細資訊,請參閱成本最佳化的設計檢閱檢查清單。
使用 Azure 定價計算機 估算實施的成本。
卓越營運
卓越營運涵蓋部署應用程式並使其持續在生產環境中執行的作業流程。 如需詳細資訊,請參閱卓越營運的設計檢閱檢查清單。
可以結合使用 Application Insights 和 Log Analytics 功能來監視 Azure 資源的運行狀況。 您可以設置警報,以便主動管理問題。
效能效率
效能效率是指工作負載能夠有效率地調整以符合使用者需求。 有關詳細資訊,請參閱效能效率的設計審核清單。
Azure Databricks、Data Lake Storage 和其他 Azure 資料庫服務具有自動縮放功能。 如需詳細資訊,請參閱 自動調整。
貢獻者們
本文由 Microsoft 維護。 下列參與者撰寫本文。
主要作者:
- Nithish Aruldoss | 工程架構師
- Ashish Khandelwal |首席工程架構管理員
若要查看非公開的 LinkedIn 個人檔案,請登入 LinkedIn。
後續步驟
- Qlik 數據集成平臺
- 推出新的 Azure 分析計劃(PDF 資料表)
- 什麼是 ExpressRoute?
- 事件中心:支援本機 Apache Kafka 的實時數據流平臺
- 存儲簡介
- 什麼是 Azure SQL 資料庫?
- Azure Cosmos DB
- 使用 OpenTelemetry 的 Application Insights 簡介
- Azure 監視器記錄概觀
- Azure Monitor 中的日誌查詢
- 聯絡我們 (選擇建立電子郵件)