Compartir vía


Uso del modelo de aprendizaje profundo de Microsoft Cognitive Toolkit con un clúster de Azure HDInsight Spark

En este artículo, realice los pasos siguientes.

  1. Ejecute un script personalizado para instalar Microsoft Cognitive Toolkit en un clúster de Azure HDInsight Spark.

  2. Cargue un cuaderno de Jupyter Notebook en el clúster de Apache Spark para ver cómo aplicar un modelo de aprendizaje profundo de Microsoft Cognitive Toolkit formado a los archivos de una cuenta de Azure Blob Storage mediante la API de Spark Python (PySpark).

Prerequisites

¿Cómo funciona esta solución?

Esta solución se divide entre este artículo y una instancia de Jupyter Notebook que se carga como parte del artículo. En este artículo, realice los pasos siguientes:

  • Ejecute una acción de script en un clúster de HDInsight Spark para instalar los paquetes de Microsoft Cognitive Toolkit y Python.
  • Cargue la instancia de Jupyter Notebook que ejecuta la solución en el clúster de HDInsight Spark.

Los pasos restantes siguientes se tratan en Jupyter Notebook.

  • Carga de imágenes de ejemplo en un conjunto de datos distribuido resistente (o RDD) de Spark.
    • Carga de los módulos y definición de los valores preestablecidos.
    • Descarga del conjunto de datos de forma local en el clúster de Spark.
    • Conversión del conjunto de datos en un RDD.
  • Puntuación de las imágenes mediante un modelo de Cognitive Toolkit entrenado.
    • Descarga del modelo de Cognitive Toolkit entrenado en el clúster de Spark.
    • Definición de las funciones que van a usar los nodos de trabajo.
    • Puntuación de las imágenes en los nodos de trabajo.
    • Evaluación de la precisión del modelo.

Instalación de Microsoft Cognitive Toolkit

Puede instalar Microsoft Cognitive Toolkit en un clúster de Spark mediante la acción de scripts. La acción de scripts usa scripts personalizados para instalar componentes del clúster que no están disponibles de forma predeterminada. Puede usar el script personalizado desde Azure Portal, mediante el uso del SDK de .NET para HDInsight o Azure PowerShell. También puede utilizar el script para instalar el kit de herramientas como parte de la creación del clúster, o una vez que el clúster está en funcionamiento.

En este artículo se utiliza el portal para instalar el kit de herramientas una vez creado el clúster. Para conocer otras formas de ejecutar el script personalizado, consulte Personalizar los clústeres de HDInsight mediante la acción de script.

Uso de Azure Portal

Para obtener instrucciones sobre cómo usar Azure Portal con el fin de ejecutar acciones de scripts, consulte Personalizar los clústeres de HDInsight mediante la acción de script. Asegúrese de que proporciona las siguientes entradas para instalar Microsoft Cognitive Toolkit. Use los siguientes valores para la acción de script:

Propiedad Value
Tipo de script - Personalizado
Nombre Instalar MCT
URI de script de Bash https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
Tipos de nodo: Principal, trabajo
Parámetros None

Carga de Jupyter Notebook en el clúster de Azure HDInsight Spark

Para usar Microsoft Cognitive Toolkit con el clúster de Azure HDInsight Spark, debe cargar Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb en el clúster de Azure HDInsight Spark. Este cuaderno está disponible en GitHub en https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Descargue y descomprima https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  2. En un explorador web, vaya a https://CLUSTERNAME.azurehdinsight.net/jupyter, donde CLUSTERNAME es el nombre del clúster.

  3. En Jupyter Notebook, seleccione Cargar en la esquina superior derecha y, luego, vaya a la descarga y seleccione el archivo CNTK_model_scoring_on_Spark_walkthrough.ipynb.

    Upload Jupyter Notebook to Azure HDInsight Spark cluster.

  4. Seleccione de nuevo Cargar.

  5. Una vez cargado el cuaderno, haga clic en el nombre de este y, a continuación, siga las instrucciones del propio cuaderno sobre cómo cargar el conjunto de datos y realizar los pasos del artículo.

Consulte también

Escenarios

Creación y ejecución de aplicaciones

Herramientas y extensiones

Administrar recursos