Uso del modelo de aprendizaje profundo de Microsoft Cognitive Toolkit con un clúster de Azure HDInsight Spark

Artículo
01/02/2025

En este artículo, realice los pasos siguientes.

Ejecute un script personalizado para instalar Microsoft Cognitive Toolkit en un clúster de Azure HDInsight Spark.
Cargue un cuaderno de Jupyter Notebook en el clúster de Apache Spark para ver cómo aplicar un modelo de aprendizaje profundo de Microsoft Cognitive Toolkit formado a los archivos de una cuenta de Azure Blob Storage mediante la API de Spark Python (PySpark).

Prerequisites

Un clúster de Apache Spark en HDInsight. Vea Creación de un clúster de Apache Spark.
Experiencia en el uso de Jupyter Notebooks con Spark en HDInsight. Para más información, consulte Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight.

¿Cómo funciona esta solución?

Esta solución se divide entre este artículo y una instancia de Jupyter Notebook que se carga como parte del artículo. En este artículo, realice los pasos siguientes:

Ejecute una acción de script en un clúster de HDInsight Spark para instalar los paquetes de Microsoft Cognitive Toolkit y Python.
Cargue la instancia de Jupyter Notebook que ejecuta la solución en el clúster de HDInsight Spark.

Los pasos restantes siguientes se tratan en Jupyter Notebook.

Carga de imágenes de ejemplo en un conjunto de datos distribuido resistente (o RDD) de Spark.
- Carga de los módulos y definición de los valores preestablecidos.
- Descarga del conjunto de datos de forma local en el clúster de Spark.
- Conversión del conjunto de datos en un RDD.
Puntuación de las imágenes mediante un modelo de Cognitive Toolkit entrenado.
- Descarga del modelo de Cognitive Toolkit entrenado en el clúster de Spark.
- Definición de las funciones que van a usar los nodos de trabajo.
- Puntuación de las imágenes en los nodos de trabajo.
- Evaluación de la precisión del modelo.

Instalación de Microsoft Cognitive Toolkit

Puede instalar Microsoft Cognitive Toolkit en un clúster de Spark mediante la acción de scripts. La acción de scripts usa scripts personalizados para instalar componentes del clúster que no están disponibles de forma predeterminada. Puede usar el script personalizado desde Azure Portal, mediante el uso del SDK de .NET para HDInsight o Azure PowerShell. También puede utilizar el script para instalar el kit de herramientas como parte de la creación del clúster, o una vez que el clúster está en funcionamiento.

En este artículo se utiliza el portal para instalar el kit de herramientas una vez creado el clúster. Para conocer otras formas de ejecutar el script personalizado, consulte Personalizar los clústeres de HDInsight mediante la acción de script.

Uso de Azure Portal

Para obtener instrucciones sobre cómo usar Azure Portal con el fin de ejecutar acciones de scripts, consulte Personalizar los clústeres de HDInsight mediante la acción de script. Asegúrese de que proporciona las siguientes entradas para instalar Microsoft Cognitive Toolkit. Use los siguientes valores para la acción de script:

Propiedad	Value
Tipo de script	- Personalizado
Nombre	Instalar MCT
URI de script de Bash	`https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh`
Tipos de nodo:	Principal, trabajo
Parámetros	None

Carga de Jupyter Notebook en el clúster de Azure HDInsight Spark

Para usar Microsoft Cognitive Toolkit con el clúster de Azure HDInsight Spark, debe cargar Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb en el clúster de Azure HDInsight Spark. Este cuaderno está disponible en GitHub en https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

Descargue y descomprima https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
En un explorador web, vaya a https://CLUSTERNAME.azurehdinsight.net/jupyter, donde CLUSTERNAME es el nombre del clúster.
En Jupyter Notebook, seleccione Cargar en la esquina superior derecha y, luego, vaya a la descarga y seleccione el archivo CNTK_model_scoring_on_Spark_walkthrough.ipynb.
Seleccione de nuevo Cargar.
Una vez cargado el cuaderno, haga clic en el nombre de este y, a continuación, siga las instrucciones del propio cuaderno sobre cómo cargar el conjunto de datos y realizar los pasos del artículo.

Consulte también

Información general: Apache Spark en Azure HDInsight

Escenarios

Creación y ejecución de aplicaciones

Herramientas y extensiones

Uso del complemento de herramientas de HDInsight para IntelliJ IDEA para crear y enviar aplicaciones de Spark Scala
Use HDInsight Tools Plugin for IntelliJ IDEA to debug Apache Spark applications remotely (Uso del complemento de herramientas de HDInsight para IntelliJ IDEA para depurar aplicaciones de Apache Spark de forma remota)
Uso de cuadernos de Apache Zeppelin con un clúster de Apache Spark en HDInsight
Kernels disponible para Jupyter Notebook en clústeres Apache Spark para HDInsight
Uso de paquetes externos con cuadernos de Jupyter Notebook
Instalación de un cuaderno de Jupyter Notebook en el equipo y conexión al clúster de Apache Spark en HDInsight de Azure

Compartir vía