Identificación de los recursos de Azure Machine Learning

Completado

Como científico de datos, trabajará principalmente con los recursos en el área de trabajo de Azure Machine Learning. Los recursos se crean y se usan en distintas fases de un proyecto e incluyen:

  • Modelos
  • Entornos
  • data
  • Componentes

Creación y administración de modelos

El producto final del entrenamiento de un modelo es el modelo en sí. Puede entrenar modelos de Machine Learning con varios marcos, como Scikit-learn o PyTorch. Una forma habitual de almacenar estos modelos es empaquetar el modelo como archivo pickle de Python (extensión .pkl).

Como alternativa, puede usar la plataforma de código abierto MLflow para almacenar el modelo con el formato MLModel.

Sea cual sea el formato que elija, los archivos binarios representarán al modelo y a los metadatos correspondientes. Para persistir esos archivos, puede crear o registrar un modelo en el área de trabajo.

Al crear un modelo en el área de trabajo, especificará el nombre y la versión. El control de versiones le permite realizar un seguimiento del modelo específico que quiere usar, lo cual es especialmente útil al implementar el modelo registrado.

Creación y administración de entornos

Al trabajar con el proceso en la nube, es importante asegurarse de que el código se ejecuta en cualquier proceso que esté a su disposición. Tanto si quiere ejecutar un script en una instancia de proceso como en un clúster de proceso, el código debe ejecutarse correctamente.

Imagine que trabaja en Python o R con marcos de código abierto para entrenar un modelo en el dispositivo local. Si quiere usar una biblioteca como Scikit-learn o PyTorch, tendrá que instalarla en el dispositivo.

De forma similar, al escribir código que use marcos o bibliotecas, deberá asegurarse de que los componentes necesarios estén instalados en el proceso que ejecutará el código. Para enumerar todos los requisitos necesarios, puede crear entornos. Al crear un entorno, debe especificar el nombre y la versión.

Los entornos especifican los paquetes de software, las variables de entorno y la configuración de software para ejecutar scripts. Un entorno se almacena como imagen en la instancia de Azure Container Registry creada con el área de trabajo cuando se usa por primera vez.

Siempre que quiera ejecutar un script, puede especificar el entorno que debe usar el destino de proceso. El entorno instalará todos los requisitos necesarios en el proceso antes de ejecutar el script, lo que hará que el código sea sólido y reutilizable en todos los destinos de proceso.

Creación y administración de datos

Mientras que los almacenes de datos contienen la información de conexión con los servicios de almacenamiento de datos de Azure, los recursos de datos hacen referencia a un archivo o una carpeta específicos.

Puede usar recursos de datos para acceder fácilmente a los datos en todo momento, sin tener que proporcionar autenticación cada vez que quiera acceder a ellos.

Al crear un recurso de datos en el área de trabajo, especificará la ruta de acceso para que apunte al archivo o carpeta, así como el nombre y la versión.

Creación y administración de componentes

Para entrenar modelos de Machine Learning, debe escribir código. En todos los proyectos, es posible que haya código que se pueda reutilizar. En lugar de escribir código desde cero, puede reutilizar fragmentos de código de otros proyectos.

Para facilitar el uso compartido del código, puede crear un componente en un área de trabajo. Para crear un componente, debe especificar el nombre, la versión, el código y el entorno que se necesitan para ejecutar el código.

Puede usar componentes al crear canalizaciones. Así pues, un componente a menudo representa un paso de una canalización, por ejemplo, para normalizar los datos, para entrenar un modelo de regresión o para probar el modelo entrenado en un conjunto de datos de validación.