線上到 Qlik 複寫

發行項
11/05/2024

重要

Qlik Replication 可協助您將數據從多個數據源（Oracle、Microsoft SQL Server、SAP、大型主機等）提取到 Delta Lake。複寫的自動化異動數據擷取（CDC）可協助您避免大量手動擷取數據、使用 API 腳本傳輸、切碎、暫存和匯入。 Qlik Compose 會將 CDC 自動化至 Delta Lake。

注意

如需 Qlik Sense 的相關信息，此解決方案可協助您分析 Delta Lake 中的數據，請參閱連線到 Qlik Sense。

如需 Qlik 複寫複寫的一般示範，請觀看下列 YouTube 影片（14 分鐘）。

如需使用 Qlik 複寫複寫的數據管線示範，請參閱下列 YouTube 影片（6 分鐘）。

以下是搭配 Azure Databricks 使用 Qlik Replicate 的步驟。

步驟 1：產生 Databricks 個人存取令牌

Qlik 複寫會使用 Azure Databricks 個人存取令牌向 Azure Databricks 進行驗證。

注意

作為安全性最佳做法，當您使用自動化工具、系統、腳本和應用程式進行驗證時，Databricks 建議您使用屬於服務主體的個人存取令牌，而不是工作區使用者。若要建立服務主體的令牌，請參閱管理服務主體的令牌。

步驟 2：設定叢集以支援整合需求

Qlik Replicate 會將數據寫入 Azure Data Lake Storage 路徑，而 Azure Databricks 整合叢集會從該位置讀取數據。因此，整合叢集需要安全存取 Azure Data Lake Storage 路徑。

保護 Azure Data Lake Storage 路徑的存取

若要安全地存取 Azure Data Lake Storage （ADLS）中的數據，您可以使用 Azure 儲存體帳戶存取密鑰（建議）或Microsoft Entra ID 服務主體。

使用 Azure 記憶體帳戶存取金鑰

您可以在整合叢集上設定記憶體帳戶存取金鑰，作為 Spark 設定的一部分。確定記憶體帳戶可以存取用於暫存數據的 ADLS 容器和文件系統，以及您想要在其中寫入 Delta Lake 數據表的 ADLS 容器和文件系統。若要將整合叢集設定為使用密鑰，請遵循連線至 Azure Data Lake Storage Gen2 和 Blob 記憶體中的步驟。

使用Microsoft Entra ID 服務主體

您可以在 Azure Databricks 整合叢集上設定服務主體，作為 Spark 組態的一部分。請確定服務主體可以存取用於暫存數據的 ADLS 容器，以及您要在其中寫入 Delta 數據表的 ADLS 容器。若要將整合叢集設定為使用服務主體，請遵循使用服務主體存取 ADLS Gen2 中的步驟。

指定叢集設定

將 [叢集模式] 設定為 [標準]。
將 Databricks 執行時間版本設定為 Databricks 執行時間版本。

將下列屬性新增至 Spark 組態，以啟用優化的寫入和自動壓縮：

spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true

根據您的整合和調整需求來設定叢集。

如需叢集組態詳細數據，請參閱計算組態參考。

如需取得 JDBC URL 和 HTTP 路徑的步驟，請參閱取得 Azure Databricks 計算資源的連線詳細數據。

步驟 3：取得 JDBC 和 ODBC 連線詳細數據以連線到叢集

若要將 Azure Databricks 叢集連線到 Qlik 複寫，您需要下列 JDBC/ODBC 連線屬性：

JDBC URL
HTTP 路徑

步驟 4：使用 Azure Databricks 設定 Qlik 複寫

移至 Qlik 登入頁面，並遵循指示。

其他資源

支援

共用方式為

線上到 Qlik 複寫

步驟 1：產生 Databricks 個人存取令牌

步驟 2：設定叢集以支援整合需求

保護 Azure Data Lake Storage 路徑的存取

使用 Azure 記憶體帳戶存取金鑰

使用Microsoft Entra ID 服務主體

指定叢集設定

步驟 3：取得 JDBC 和 ODBC 連線詳細數據以連線到叢集

步驟 4：使用 Azure Databricks 設定 Qlik 複寫

其他資源

意見反應

其他資源