使用 HortonWorks Data Platform 的 Docker 部署,在 Azure 實驗室服務中設定巨量數據分析的實驗室

注意

本文參考實驗室方案中可用的功能,這些功能取代了實驗室帳戶。

本文說明如何設定實驗室來教導巨量數據分析課程。 巨量數據分析類別會教導使用者如何處理大量數據。 它也會教導他們套用機器學習和統計學習演算法來衍生數據深入解析。 關鍵目標是瞭解如何使用數據分析工具,例如 Apache Hadoop 的開放原始碼軟體套件。 軟體套件提供用來儲存、管理及處理巨量數據的工具。

在此實驗室中,實驗室使用者會使用 Cloudera 所提供的熱門商業版 Hadoop,稱為 Hortonworks Data Platform (HDP)。 具體而言,實驗室使用者使用 HDP 沙箱 3.0.1 ,這是簡化且易於使用的平臺版本。 HDP 沙盒 3.0.1 也是免費的,而且適用於學習和實驗。 雖然此類別可能會搭配部署 HDP 沙箱使用 Windows 或 Linux 虛擬機(VM)。 本文說明如何使用 Windows。

另一個有趣的方面是,您使用 Docker 容器在實驗室 VM 上部署 HDP 沙盒。 每個 Docker 容器都會提供自己的隔離環境,讓軟體應用程式在內部執行。 就概念上講,Docker 容器就像巢狀 VM,可用來根據 Docker Hub提供的容器映射,輕鬆地部署和執行各種不同的軟體應用程式。 Cloudera 的 HDP 沙箱部署腳本會自動從 Docker Hub 提取 HDP 沙盒 3.0.1 Docker 映射 ,並執行兩個 Docker 容器:

  • sandbox-hdp
  • sandbox-proxy

必要條件

若要設定此實驗室,您需要存取 Azure 訂用帳戶。 請與組織的系統管理員討論,以查看您是否可以存取現有的 Azure 訂用帳戶。 如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶

實驗室組態

實驗室計劃設定

擁有 Azure 訂用帳戶之後,您可以在 Azure 實驗室服務中建立實驗室方案。 如需建立新實驗室計劃的詳細資訊,請參閱 快速入門:設定資源以建立實驗室。 您也可以使用現有的實驗室計劃。

此實驗室會使用 Windows 10 專業版 Azure Marketplace 映射作為基底 VM 映射。 您必須先在實驗室方案中啟用此映像。 這可讓實驗室建立者選取映像作為實驗室的基礎映像。

請遵循下列步驟來 啟用實驗室建立者可用的這些 Azure Marketplace 映像。 選取其中一個 Windows 10 Azure Marketplace 映射。

實驗室設定

為您的實驗室計劃建立實驗室。 如需如何建立實驗室的指示,請參閱 教學課程:設定實驗室。 建立實驗室時,請使用下列設定。

實驗室設定 值/指示
虛擬機器大小 中型 (巢狀虛擬化) 。 此 VM 大小最適合關係資料庫、記憶體內部快取和分析。 大小也支援巢狀虛擬化。
虛擬機器映像 Windows 10 專業版

注意

使用中型(巢狀虛擬化)VM 大小,因為使用 Docker 的 HDP 沙盒需要具有巢狀虛擬化和至少 10 GB RAM 的 Windows Hyper-V。

範本電腦設定

若要設定樣本電腦:

  1. 安裝 Docker
  2. 部署 HDP 沙箱
  3. 使用 PowerShell 和 Windows 工作排程器自動啟動 Docker 容器

安裝 Docker

本節中的步驟是以 Cloudera 使用 Docker 容器進行部署的指示為基礎

若要使用 Docker 容器,您必須先在範本 VM 上安裝 Docker Desktop:

  1. 請遵循必要條件一節中的步驟來安裝適用於 Windows 的 Docker。

    重要

    請確定 未核取 [使用 Windows 容器而非 Linux 容器組 態] 選項。

  2. 確定 已開啟 Windows 容器和 Hyper-V 功能

    開啟或關閉 Windows 功能。

  3. 請遵循 Windows 記憶體一節中的步驟來設定 Docker 的記憶體組態。

    警告

    如果您在安裝 Docker 時不小心檢查 [使用 Windows 容器而非 Linux 容器 ] 選項,則不會看到記憶體組態設定。 若要修正此問題,您可以按下 Windows 系統匣中的 Docker 圖示來切換至使用 Linux 容器;當 Docker Desktop 功能開啟時,請選取 [切換至 Linux 容器]。

部署 HDP 沙箱

接下來,部署 HDP 沙箱,然後使用瀏覽器存取 HDP 沙盒。

  1. 請確定您已安裝 Git Bash,如指南的必要條件一節所述。 建議完成後續步驟。

  2. 使用 Cloudera 的 Docker 部署和安裝指南,完成下列各節中的步驟:

    • 部署 HDP 沙箱
    • 確認 HDP 沙箱

    警告

    當您下載 HDP 的最新.zip檔案時,請確定您 不會 將.zip檔案儲存在包含空格符的目錄路徑中。

    注意

    如果您在部署期間收到指出 磁碟驅動器尚未共用的例外狀況,您必須與 Docker 共用 C 磁碟驅動器,讓 HDP 的 Linux 容器可以存取本機 Windows 檔案。 若要修正此問題,請按下 Windows 系統匣中的 Docker 圖示,以開啟 [Docker 桌面] 功能表,然後選取 [設定]。 當 Docker 的 [設定] 對話框開啟時,請選取 [資源>檔案共用],然後檢查 C 磁碟驅動器。 然後,您可以重複步驟來部署 HDP 沙盒。

  3. 部署和執行 HDP 沙箱的 Docker 容器時,您可以啟動瀏覽器來存取環境。 請遵循 Cloudera 的指示來開啟 沙箱歡迎頁面 並啟動 HDP 儀錶板。

    注意

    這些指示假設您必須先將沙盒環境的本機 IP 位址對應至範本 VM 上主機檔案中的 sandbox-hdp.hortonworks.com。 如果您 執行此對應,您可以瀏覽至 http://localhost:8080來存取沙盒歡迎頁面。

在實驗室使用者登入時自動啟動 Docker 容器

若要為實驗室使用者提供易於使用的體驗,請建立可自動執行的PowerShell腳本:

  1. 當實驗室用戶啟動並連線到其實驗室 VM 時,啟動 HDP 沙箱 Docker 容器。
  2. 啟動瀏覽器並流覽至 [沙盒歡迎使用] 頁面。

當實驗室使用者登入其 VM 時,使用 Windows 工作排程器自動執行此腳本。 若要設定工作排程器,請遵循下列步驟: 巨量數據分析腳本

成本預估值

本節提供25個實驗室使用者執行此類別的成本估計值。 排程的類別時間為20小時。 此外,每個使用者在排程的班級時間之外獲得 10 小時的作業或工作分派配額。 我們所選擇的虛擬機大小是 中型(巢狀虛擬化),也就是55個實驗室單元。

  • 25 個實驗室使用者× (20 個排程時 + 10 個配額小時) × 55 個實驗室單位

重要

成本估計僅供範例之用。 如需目前的定價資訊,請參閱 Azure 實驗室服務定價

推論

本文逐步引導您完成為巨量數據分析類別建立實驗室所需的步驟。 巨量數據分析類別會使用以 Docker 部署的 Hortonworks Data Platform。 此類別類型的設定可用於類似的數據分析類別。 此設定可能也適用於使用 Docker 進行部署的其他類別類型。

下一步

範本映像現在可以發佈至實驗室。 如需詳細資訊,請參閱 發佈範本 VM

當您設定實驗室時,請參閱下列文章: