使用 Microsoft Hive ODBC 驅動程式將 Excel 連線到 Azure HDInsight 中的 Apache Hadoop

Microsoft 的巨量資料解決方案會將 Microsoft 商業智慧 (BI) 元件與部署於 HDInsight 中的 Apache Hadoop 叢集整合。 例如,將 Excel 連線至 Hadoop 叢集的 Hive 資料倉儲。 使用 Microsoft Hive 開放式資料庫連接 (ODBC) 驅動程式連線。

您可以使用適用於 Excel 的 Microsoft Power Query 增益集,從 Excel 連線與 HDInsight 叢集相關聯的資料。 如需詳細資訊,請參閱使用 Power Query 將 Excel 連線到 HDInsight

必要條件

開始閱讀本文之前,您必須有下列各項:

  • HDInsight Hadoop 叢集。 若要建立,請參閱開始使用 Azure HDInsight
  • 具有 Office 2010 專業增強版或更新版本,或是 Excel 2010 或更新版本的工作站。

安裝 Microsoft Hive ODBC 驅動程式

下載並安裝 Microsoft Hive ODBC 驅動程式。 選擇與您要使用 ODBC 驅動程式的應用程式版本相符的版本。 本文將針對 Office Excel 使用此驅動程式。

建立 Apache Hive ODBC 資料來源

下列步驟將說明如何建立 Hive ODBC 資料來源。

  1. 從 Windows 中,瀏覽至 [開始] > [Windows 系統管理工具] > [ODBC 資料來源 (32 位元)/(64 位元)]。 此動作會開啟 [ODBC 資料來源管理員] 視窗。

    OBDC data source administrator.

  2. 從 [使用者 DSN] 索引標籤,選取 [新增] 以開啟 [建立新資料來源] 視窗。

  3. 選取 [Microsoft Hive ODBC 驅動程式],然後選取 [完成] 以開啟 [Microsoft Hive ODBC 驅動程式 DSN 設定] 視窗。

  4. 輸入或選取下列值:

    屬性 說明
    資料來源名稱 為資料來源指定名稱
    主機 輸入 HDInsightClusterName.azurehdinsight.net。 例如: myHDICluster.azurehdinsight.net 。 注意:只要用戶端 VM 與相同的虛擬網路對等互連,HDInsightClusterName-int.azurehdinsight.net 就會受到支援。
    連接埠 使用 443 (此連接埠已從 563 變更為 443)。
    Database 使用預設值
    機制 選取 [Windows Azure HDInsight 服務]
    使用者名稱 輸入 HDInsight 叢集 HTTP 使用者的使用者名稱。 預設的使用者名稱為 admin
    密碼 輸入 HDInsight 叢集使用者的密碼。 選取 [儲存密碼 (加密)] 核取方塊。
  5. 選擇性:選取 [進階選項...]

    參數 描述
    使用原生查詢 選取此選項時,ODBC 驅動程式不會嘗試將 TSQL 轉換為 HiveQL。 只有在百分之百確定您所提交的是純 HiveQL 陳述式時,才應使用此選項。 連接到 SQL Server 或 Azure SQL Database 時,您應將它保留為未勾選。
    每個區塊擷取的資料列 在擷取大量記錄時,可能必須調整此參數,以確保最佳效能。
    預設字串資料行長度、二進位資料行長度、十進位資料行小數位數 資料類型的長度和精確度可能會影響傳回資料的方式。 如果失去精確度且/或發生截斷狀況,會傳回不正確的資訊。

    Advanced DSN configuration options.

  6. 選取 [測試] 以測試資料來源。 正確設定資料來源時,測試結果就會顯示「成功!」

  7. 選取 [確定] 以關閉 [測試] 視窗。

  8. 選取 [確定] 以關閉 [Microsoft Hive ODBC 驅動程式 DSN 設定] 視窗。

  9. 選取 [確定] 以關閉 [ODBC 資料來源管理員] 視窗。

從 HDInsight 將資料匯入 Excel 中

下列步驟將說明如何使用您在上一節中建立的 ODBC 資料來源,將資料從 Hive 資料表匯入 Excel 活頁簿中。

  1. 在 Excel 中開啟新的或現有的活頁簿。

  2. 從 [資料] 索引標籤,瀏覽至 [取得資料]>[從其他來源]>[從 ODBC] 以啟動 [從 ODBC] 視窗。

    Open Excel data connection wizard.

  3. 從下拉式清單中,選取您在上一節建立的資料來源名稱,然後選取 [確定]

  4. 第一次使用時,[ODBC 驅動程式] 對話方塊將會開啟。 從左側功能表中選取 [Windows]。 然後,選取 [連線] 以開啟 [導覽器] 視窗。

  5. 從 [導覽器] 中,瀏覽至 [HIVE]>[預設值]>[hivesampletable],然後選取 [載入]。 資料需要一些時間才會匯入至 Excel。

    HDInsight Excel Hive ODBC navigator.

下一步

在本文中,您已了解如何使用 Microsoft Hive ODBC 驅動程式將 HDInsight 服務中的資料擷取至 Excel。 同樣地,您也可以將 HDInsight 服務中的資料擷取至 SQL Database。 此外也可以將資料上傳至 HDInsight 服務。 若要深入了解,請參閱: