搭配 Azure HDInsight Spark 叢集使用 Microsoft Cognitive Toolkit 深度學習模型
在本文中,您會執行下列步驟。
執行自定義腳本,在 Azure HDInsight Spark 叢集上安裝 Microsoft Cognitive Toolkit 。
將 Jupyter Notebook 上傳至 Apache Spark 叢集,瞭解如何使用 Spark Python API 將定型的 Microsoft 認知工具組深度學習模型套用至 Azure Blob 儲存體 帳戶中的檔案 (PySpark)
必要條件
HDInsight 上的 Apache Spark 叢集。 請參閱 建立 Apache Spark 叢集。
熟悉如何搭配使用 Jupyter Notebook 和 HDInsight 上的 Spark。 如需詳細資訊,請參閱使用 HDInsight 上的 Apache Spark 載入資料及執行查詢。
此解決方案如何流動?
此解決方案分為本文和您在此文章中上傳的 Jupyter Notebook。 在本文中,您會完成下列步驟:
- 在 HDInsight Spark 叢集上執行腳本動作,以安裝 Microsoft Cognitive Toolkit 和 Python 套件。
- 將執行解決方案的 Jupyter Notebook 上傳至 HDInsight Spark 叢集。
Jupyter Notebook 涵蓋下列其餘步驟。
- 將範例映像載入 Spark 復原分散式數據集或 RDD。
- 載入模組並定義預設值。
- 在 Spark 叢集本機下載數據集。
- 將數據集轉換成 RDD。
- 使用定型的認知工具組模型為影像評分。
- 將定型的認知工具組模型下載至Spark叢集。
- 定義背景工作節點要使用的函式。
- 為背景工作節點上的映像評分。
- 評估模型精確度。
安裝 Microsoft Cognitive Toolkit
您可以使用腳本動作,在Spark叢集上安裝 Microsoft Cognitive Toolkit。 腳本動作會使用自定義腳本,在預設無法使用的叢集上安裝元件。 您可以使用來自 Azure 入口網站 的自訂腳本、使用 HDInsight .NET SDK 或使用 Azure PowerShell。 您也可以使用腳本將工具組安裝為叢集建立的一部分,或在叢集啟動並執行之後。
在本文中,我們會使用入口網站在建立叢集之後安裝工具組。 如需執行自定義腳本的其他方式,請參閱 使用腳本動作自定義 HDInsight 叢集。
使用 Azure 入口網站
如需如何使用 Azure 入口網站 執行腳本動作的指示,請參閱使用腳本動作自定義 HDInsight 叢集。 請確定您提供下列輸入來安裝 Microsoft Cognitive Toolkit。 針對文稿動作使用下列值:
屬性 | 值 |
---|---|
指令碼類型 | -自 定義 |
名稱 | 安裝MCT |
Bash 指令碼 URI | https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh |
節點類型: | 主管、背景工作 |
參數 | 無 |
將 Jupyter Notebook 上傳至 Azure HDInsight Spark 叢集
若要搭配 Azure HDInsight Spark 叢集使用 Microsoft 認知工具組,您必須將 Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb 載入至 Azure HDInsight Spark 叢集。 此筆記本可在 GitHub 上取得 https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration。
下載並解壓縮 https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration。
從網頁瀏覽器瀏覽至
https://CLUSTERNAME.azurehdinsight.net/jupyter
,其中CLUSTERNAME
是叢集的名稱。從 Jupyter Notebook 中,選取 右上角的 [上傳 ],然後瀏覽至下載並選取 [檔案
CNTK_model_scoring_on_Spark_walkthrough.ipynb
]。再次選取 [ 上傳 ]。
上傳筆記本之後,按兩下筆記本的名稱,然後遵循筆記本本身如何載入數據集並執行文章的指示。
另請參閱
案例
- Apache Spark 和 BI:在 HDInsight 中搭配 BI 工具使用 Spark 執行互動式資料分析
- Apache Spark 和機器學習服務:使用 HDInsight 中的 Spark,使用 HVAC 資料來分析建築物溫度
- Apache Spark 和機器學習服務:在 HDInsight 中使用 Spark 預測食品檢查結果
- 在 HDInsight 中使用 Apache Spark 進行網站記錄分析
- 在 HDInsight 中使用 Apache Spark 的 Application Insight 遙測資料分析
建立及執行應用程式
工具和延伸模組
- 使用 IntelliJ IDEA 的 HDInsight Tools 外掛程式來建立和提交 Spark Scala 應用程式
- 使用適用於 IntelliJ IDEA 的 HDInsight 工具外掛程式遠端偵錯 Apache Spark 應用程式
- 在 HDInsight 上搭配使用 Apache Zeppelin Notebook 和 Apache Spark 叢集
- 在適用於 HDInsight 的 Apache Spark 叢集中可供 Jupyter Notebook 使用的核心
- 搭配 Jupyter Notebook 使用外部套件
- 在電腦上安裝 Jupyter 並連接到 HDInsight Spark 叢集