共用方式為


搭配 Azure HDInsight Spark 叢集使用 Microsoft Cognitive Toolkit 深度學習模型

在本文中,您會執行下列步驟。

  1. 執行自定義腳本,在 Azure HDInsight Spark 叢集上安裝 Microsoft Cognitive Toolkit

  2. 將 Jupyter Notebook 上傳至 Apache Spark 叢集,瞭解如何使用 Spark Python API 將定型的 Microsoft 認知工具組深度學習模型套用至 Azure Blob 儲存體 帳戶中的檔案 (PySpark)

必要條件

此解決方案如何流動?

此解決方案分為本文和您在此文章中上傳的 Jupyter Notebook。 在本文中,您會完成下列步驟:

  • 在 HDInsight Spark 叢集上執行腳本動作,以安裝 Microsoft Cognitive Toolkit 和 Python 套件。
  • 將執行解決方案的 Jupyter Notebook 上傳至 HDInsight Spark 叢集。

Jupyter Notebook 涵蓋下列其餘步驟。

  • 將範例映像載入 Spark 復原分散式數據集或 RDD。
    • 載入模組並定義預設值。
    • 在 Spark 叢集本機下載數據集。
    • 將數據集轉換成 RDD。
  • 使用定型的認知工具組模型為影像評分。
    • 將定型的認知工具組模型下載至Spark叢集。
    • 定義背景工作節點要使用的函式。
    • 為背景工作節點上的映像評分。
    • 評估模型精確度。

安裝 Microsoft Cognitive Toolkit

您可以使用腳本動作,在Spark叢集上安裝 Microsoft Cognitive Toolkit。 腳本動作會使用自定義腳本,在預設無法使用的叢集上安裝元件。 您可以使用來自 Azure 入口網站 的自訂腳本、使用 HDInsight .NET SDK 或使用 Azure PowerShell。 您也可以使用腳本將工具組安裝為叢集建立的一部分,或在叢集啟動並執行之後。

在本文中,我們會使用入口網站在建立叢集之後安裝工具組。 如需執行自定義腳本的其他方式,請參閱 使用腳本動作自定義 HDInsight 叢集。

使用 Azure 入口網站

如需如何使用 Azure 入口網站 執行腳本動作的指示,請參閱使用腳本動作自定義 HDInsight 叢集。 請確定您提供下列輸入來安裝 Microsoft Cognitive Toolkit。 針對文稿動作使用下列值:

屬性
指令碼類型 -自 定義
名稱 安裝MCT
Bash 指令碼 URI https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
節點類型: 主管、背景工作
參數

將 Jupyter Notebook 上傳至 Azure HDInsight Spark 叢集

若要搭配 Azure HDInsight Spark 叢集使用 Microsoft 認知工具組,您必須將 Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb 載入至 Azure HDInsight Spark 叢集。 此筆記本可在 GitHub 上取得 https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration

  1. 下載並解壓縮 https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration

  2. 從網頁瀏覽器瀏覽至 https://CLUSTERNAME.azurehdinsight.net/jupyter,其中 CLUSTERNAME 是叢集的名稱。

  3. 從 Jupyter Notebook 中,選取 右上角的 [上傳 ],然後瀏覽至下載並選取 [檔案 CNTK_model_scoring_on_Spark_walkthrough.ipynb]。

    Upload Jupyter Notebook to Azure HDInsight Spark cluster.

  4. 再次選取 [ 上傳 ]。

  5. 上傳筆記本之後,按兩下筆記本的名稱,然後遵循筆記本本身如何載入數據集並執行文章的指示。

另請參閱

案例

建立及執行應用程式

工具和延伸模組

管理資源