Tutorial: Desarrollo de modelos en una estación de trabajo en la nube

En este artículo se describe cómo desarrollar un script de entrenamiento mediante un cuaderno en una estación de trabajo en la nube de Azure Machine Learning. En el tutorial se describen los pasos básicos que necesita para empezar:

Configura y configura la estación de trabajo en la nube. La estación de trabajo en la nube se basa en una instancia de proceso de Azure Machine Learning, que está preconfigurada con entornos para admitir las necesidades de desarrollo de modelos.
Use entornos de desarrollo basados en la nube.
Use MLflow para realizar un seguimiento de las métricas del modelo.

Requisitos previos

Para usar Azure Machine Learning, necesita un área de trabajo. Si no tiene una, complete Creación de los recursos necesarios para empezar a trabajar, para crear un área de trabajo y obtener más información sobre su uso.

Importante

Si su área de trabajo de Azure Machine Learning está configurada con una red virtual administrada, es posible que deba agregar reglas de salida para permitir el acceso a los repositorios públicos de paquetes de Python. Para obtener más información, consulte: Escenario: acceso a paquetes de aprendizaje automático públicos.

Creación o inicio de computación

Puede crear recursos de proceso en la sección Proceso del área de trabajo. Una instancia de proceso es una estación de trabajo basada en la nube totalmente administrada por Azure Machine Learning. En esta serie de tutoriales se usa una instancia de proceso. También puede usarse para ejecutar su propio código y para desarrollar y probar modelos.

Inicie sesión en Azure Machine Learning Studio.
Seleccione el área de trabajo, si aún no está abierta.
En el panel izquierdo, seleccione Proceso.
Si no tiene una instancia de cómputo, verá Nuevo en medio de la página. Seleccione Nueva y rellene el formulario. Puede usar todos los valores predeterminados.
Si tiene una instancia de proceso, selecciónela en la lista. Si se detiene, seleccione Iniciar.

Abra Visual Studio Code (VS Code)

Después de tener una instancia de proceso en ejecución, puede acceder a ella de varias maneras. En este tutorial se describe cómo usar la instancia de proceso desde Visual Studio Code. Visual Studio Code proporciona un entorno de desarrollo integrado (IDE) completo para crear instancias de proceso.

En la lista de instancias de proceso, seleccione VS Code (Web) o VS Code (Escritorio) para la instancia de proceso que desea usar. Si elige VS Code (Escritorio), puede que vea un mensaje en el que se le pregunta si desea abrir la aplicación.

Esta instancia de Visual Studio Code está asociada a la instancia de proceso y al sistema de archivos del área de trabajo. Incluso si lo abre en el escritorio, los archivos que ve son archivos en el área de trabajo.

Configuración de un nuevo entorno para la creación de prototipos

Para que el script se ejecute, debe estar trabajando en un entorno configurado con las dependencias y bibliotecas que espera el código. Esta sección le ayuda a crear un entorno adaptado al código. Para crear el nuevo kernel de Jupyter al que se conecta el cuaderno, use un archivo YAML que defina las dependencias.

Cargar un archivo.

Los archivos que cargue se almacenan en un recurso compartido de archivos de Azure y estos archivos se montan en cada instancia de proceso y se comparten dentro del área de trabajo.
1. Vaya a azureml-examples/tutorials/get-started-notebooks/workstation_env.yml.
2. Descargue el archivo de entorno de Conda workstation_env.yml al equipo; para ello, seleccione el botón de puntos suspensivos (...) en la esquina superior derecha de la página y, a continuación, seleccione Descargar.
3. Arrastra el archivo desde tu ordenador a la ventana de Visual Studio Code. El archivo se carga en el área de trabajo.
4. Mueva el archivo a la carpeta de nombre de usuario.
5. Seleccione el archivo para obtener una vista previa. Revise las dependencias que especifica. Debería ver algo parecido a esto:
```
name: workstation_env
# This file serves as an example - you can update packages or versions to fit your use case
dependencies:
  - python=3.8
  - pip=21.2.4
  - scikit-learn=0.24.2
  - scipy=1.7.1
  - pandas>=1.1,<1.2
  - pip:
    - mlflow-skinny 
    - azureml-mlflow
    - psutil>=5.8,<5.9
    - ipykernel~=6.0
    - matplotlib
```
Cree un kernel.

Ahora use el terminal para crear un nuevo kernel de Jupyter basado en el archivo workstation_env.yml .
1. En el menú de la parte superior de Visual Studio Code, seleccione Terminal > Nuevo terminal.
1. Consulte los entornos de Conda actuales. El entorno activo está marcado con un asterisco (*).
```
conda env list
```
2. Use cd para navegar a la carpeta donde cargó el archivo workstation_env.yml . Por ejemplo, si lo cargó en tu carpeta de usuario, usa este comando:
```
cd Users/myusername
```
3. Asegúrese de que workstation_env.yml está en la carpeta .
```
ls
```
4. Cree el entorno según el archivo Conda proporcionado. La compilación del entorno tarda unos minutos.
```
conda env create -f workstation_env.yml
```
5. Active el nuevo entorno.
```
conda activate workstation_env
```
  Nota:
  
  Si ve CommandNotFoundError, siga las instrucciones para ejecutar conda init bash, cierre el terminal y, a continuación, abra uno nuevo. A continuación, vuelva a intentar el conda activate workstation_env comando.
6. Compruebe que el entorno correcto está activo, de nuevo buscando el entorno marcado con un *.
```
conda env list
```
7. Cree un nuevo kernel de Jupyter basado en el entorno activo.
```
python -m ipykernel install --user --name workstation_env --display-name "Tutorial Workstation Env" 
```
8. Cierre la ventana de terminal.

Ya tiene un nuevo kernel. A continuación, abrirá un cuaderno y usará este kernel.

Creación de un cuaderno

En el menú de la parte superior de Visual Studio Code, seleccione Archivo > nuevo archivo.
Asigne al nuevo archivo el nombre develop-tutorial.ipynb (o use otro nombre). Asegúrese de usar la extensión .ipynb .

Establecer kernel

En la esquina superior derecha del nuevo archivo, seleccione Seleccionar Kernel.
Seleccione Instancia de proceso de Azure ML (computeinstance-name).
Seleccione el kernel que ha creado: Tutorial Workstation Env. Si no ve el kernel, seleccione el botón Actualizar situado encima de la lista.

Desarrollo de un script de entrenamiento

En esta sección, desarrollará un script de entrenamiento de Python que predice incumplimientos de pago de tarjeta de crédito mediante los conjuntos de datos de prueba y entrenamiento preparados del UCI dataset.

Este código usa sklearn para el entrenamiento y MLflow para las métricas de registro.

Comience con el código que importa los paquetes y las bibliotecas que usará en el script de entrenamiento.

import os
import argparse
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

A continuación, cargue y procese los datos del experimento. En este tutorial, tendrá que leer los datos de un archivo en Internet.

# load the data
credit_df = pd.read_csv(
    "https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv",
    header=1,
    index_col=0,
)

train_df, test_df = train_test_split(
    credit_df,
    test_size=0.25,
)

Prepare los datos para el entrenamiento.

# Extracting the label column
y_train = train_df.pop("default payment next month")

# convert the dataframe values to array
X_train = train_df.values

# Extracting the label column
y_test = test_df.pop("default payment next month")

# convert the dataframe values to array
X_test = test_df.values

Agregue código para iniciar el registro automático con MLflow para que pueda realizar un seguimiento de las métricas y los resultados. Con la naturaleza iterativa del desarrollo de modelos, MLflow le ayuda a registrar los parámetros y los resultados del modelo. Consulte diferentes ejecuciones para comparar y comprender cómo funciona el modelo. Los registros también proporcionan contexto que podrá usar cuando esté listo para pasar de la fase de desarrollo a la fase de entrenamiento de los flujos de trabajo en la instancia de Azure Machine Learning.
```
# set name for logging
mlflow.set_experiment("Develop on cloud tutorial")
# enable autologging with MLflow
mlflow.sklearn.autolog()
```

Entrene un modelo.

# Train Gradient Boosting Classifier
print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Nota:

Puede omitir las advertencias de MLflow. Se seguirá realizando el seguimiento de los resultados que necesita.

Seleccione Ejecutar todo encima del código.

Iteración

Ahora que tiene resultados del modelo, cambie algo y vuelva a ejecutar el modelo. Por ejemplo, pruebe una técnica de clasificación diferente:

# Train  AdaBoost Classifier
from sklearn.ensemble import AdaBoostClassifier

print(f"Training with data of shape {X_train.shape}")

mlflow.start_run()
ada = AdaBoostClassifier()

ada.fit(X_train, y_train)

y_pred = ada.predict(X_test)

print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()

Nota:

Puede omitir las advertencias de MLflow. Se seguirá realizando el seguimiento de los resultados que necesita.

Seleccione Ejecutar todo para ejecutar el modelo.

Examen de los resultados

Ahora que ha probado dos modelos diferentes, use los resultados realizados por MLFfow para decidir qué modelo es mejor. Puede hacer referencia a métricas como la precisión u otros indicadores que más importan para sus escenarios. Puede revisar estos resultados con más detalle examinando los trabajos creados por MLflow.

Vuelva al área de trabajo en el Estudio de Azure Machine Learning.
En el panel izquierdo, seleccione Trabajos.
Seleccione tutorial de desarrollo en la nube.
Hay dos tareas mostradas, una para cada uno de los modelos que usted intentó. Los nombres se generan automáticamente. Si desea cambiar el nombre del trabajo, mantenga el puntero sobre el nombre y seleccione el botón de lápiz situado junto a él.
Seleccione el vínculo del primer trabajo. El nombre aparece en la parte superior de la página. También puede cambiarle el nombre aquí mediante el botón de lápiz.
En la página se muestran los detalles del trabajo, como propiedades, salidas, etiquetas y parámetros. En Etiquetas, verá el estimator_name, que describe el tipo de modelo.
Seleccione la pestaña Métricas para ver las métricas registradas por MLflow. (Los resultados serán diferentes porque tiene un conjunto de entrenamiento diferente).
Seleccione la pestaña Imágenes para ver las imágenes generadas por MLflow.
Vuelva y revise las métricas e imágenes del otro modelo.

Creación de un script de Python

Ahora creará un script de Python desde el cuaderno para el entrenamiento del modelo.

En Visual Studio Code, haga clic con el botón derecho en el nombre del archivo del cuaderno y seleccione Importar cuaderno a script.
Seleccione Guardar archivo > para guardar el nuevo archivo de script. Llámelo train.py.
Examine el archivo y elimine el código que no desea en el script de entrenamiento. Por ejemplo, mantenga el código del modelo que desea usar y elimine el código del modelo que no desea usar.
- Asegúrese de mantener el código que inicia el registro automático (mlflow.sklearn.autolog()).
- Al ejecutar el script de Python de forma interactiva (como está haciendo aquí), puede mantener la línea que define el nombre del experimento (mlflow.set_experiment("Develop on cloud tutorial")). O bien, puede asignarle un nombre diferente para verlo como una entrada diferente en la sección Trabajos . Pero al preparar el script para un trabajo de entrenamiento, esa línea no se aplica y se debe omitir: la definición del trabajo incluye el nombre del experimento.
- Al entrenar un solo modelo, las líneas para iniciar y finalizar una ejecución (mlflow.start_run() y mlflow.end_run()) no son necesarias (no tienen ningún efecto), pero puede dejarlas.
Cuando haya terminado con las modificaciones, guarde el archivo.

Ya tiene un script de Python que podrá usar para entrenar el modelo que prefiera.

Ejecute el script de Python.

Por ahora, ejecutará este código en la instancia de proceso, que es el entorno de desarrollo de Azure Machine Learning. Tutorial: Entrenamiento de un modelo muestra cómo ejecutar un script de entrenamiento de forma más escalable en recursos de proceso más eficaces.

Seleccione el entorno que creó anteriormente en este tutorial como versión de Python (workstations_env). En la esquina inferior derecha del cuaderno, verá el nombre del entorno. Selecciónelo y, a continuación, seleccione el entorno en la parte superior de Visual Studio Code.
Ejecute el script de Python seleccionando el botón Ejecutar todo encima del código.

Nota:

Puede omitir las advertencias de MLflow. Seguirá recibiendo todas las métricas e imágenes del registro automático.

Examen de los resultados del script

Vuelva a Trabajos en el área de trabajo del Estudio de Azure Machine Learning para ver los resultados del script de entrenamiento. Tenga en cuenta que los datos de entrenamiento cambian con cada división, por lo que los resultados serán diferentes entre ejecuciones.

Limpieza de recursos

Si tiene previsto continuar con otros tutoriales, vaya a Pasos siguientes.

Detención de la instancia de proceso

Si no va a utilizar ahora la instancia de proceso, deténgala:

En el estudio, en el panel izquierdo, seleccione Compute.
En la parte superior de la página, seleccione Instancias de proceso.
En la lista, seleccione la instancia de cálculo.
En la parte superior de la página, seleccione Detener.

Eliminación de todos los recursos

Importante

Los recursos que creó pueden usarse como requisitos previos para otros tutoriales y artículos de procedimientos de Azure Machine Learning.

Si no va a usar ninguno de los recursos que ha creado, elimínelos para no incurrir en cargos:

En Azure Portal, en el cuadro de búsqueda, escriba Grupos de recursos y selecciónelo en los resultados.
En la lista, seleccione el grupo de recursos que creó.
En la página Información general, seleccione Eliminar grupo de recursos.
Escriba el nombre del grupo de recursos. A continuación, seleccione Eliminar.

Pasos siguientes

Para obtener más información, consulte estos recursos:

En este tutorial se muestran los primeros pasos para crear un modelo, crear prototipos en la misma máquina donde reside el código. En el caso del entrenamiento de producción, puede aprender a usar ese script de entrenamiento en recursos de proceso remotos más eficaces:

Entrenamiento de un modelo

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-10-17

Tutorial: Desarrollo de modelos en una estación de trabajo en la nube

Requisitos previos

Creación o inicio de computación

Abra Visual Studio Code (VS Code)

Configuración de un nuevo entorno para la creación de prototipos

Creación de un cuaderno

Establecer kernel

Desarrollo de un script de entrenamiento

Iteración

Examen de los resultados

Creación de un script de Python

Ejecute el script de Python.

Examen de los resultados del script

Limpieza de recursos

Detención de la instancia de proceso

Eliminación de todos los recursos

Pasos siguientes

Comentarios

Recursos adicionales