Glosario de Azure Machine Learning

El glosario de Azure Machine Learning es un breve diccionario de términos para la plataforma Azure Machine Learning. Para obtener la terminología general de Azure, consulte también:

Componente

Un componente de Azure Machine Learning es un fragmento de código independiente que realiza un paso en una canalización de aprendizaje automático. Los componentes son los bloques de creación de las canalizaciones de aprendizaje automático avanzadas. Los componentes pueden realizar tareas como el procesamiento de datos, el entrenamiento de modelos, la puntuación de modelos, etc. Un componente es análogo a una función: tiene un nombre, parámetros, espera una entrada y devuelve una salida.

Compute

Un proceso es un recurso de proceso designado en el que se ejecuta el trabajo o se hospeda el punto de conexión. Azure Machine Learning admite los siguientes tipos de proceso:

  • Clúster de proceso: una infraestructura de proceso administrada que permite crear fácilmente un clúster de nodos de proceso de CPU o GPU en la nube.

    Nota:

    En lugar de crear un clúster de proceso, use el proceso sin servidor (versión preliminar) para descargar la administración del ciclo de vida de proceso en Azure Machine Learning.

  • Instancia de proceso: un entorno de desarrollo completamente configurado y administrado en la nube. Puede usar la instancia como proceso de entrenamiento o inferencia para desarrollo y pruebas. Es similar a una máquina virtual en la nube.

  • Clúster de Kubernetes: se usa para implementar modelos de aprendizaje automático entrenados en Azure Kubernetes Service. Puede crear un clúster de Azure Kubernetes Service (AKS) desde el área de trabajo de Azure Machine Learning, o bien asociar un clúster de AKS existente.

  • Proceso asociado : puede asociar sus propios recursos de proceso al área de trabajo y usarlos para el entrenamiento y la inferencia.

Datos

Azure Machine Learning permite trabajar con diferentes tipos de datos:

  • URI (una ubicación en el almacenamiento local o en la nube)
    • uri_folder
    • uri_file
  • Tablas (una abstracción de datos tabulares)
    • mltable
  • Primitivos
    • string
    • boolean
    • number

En la mayoría de los escenarios, usará URI (uri_folder y uri_file): una ubicación en el almacenamiento que se puede asignar fácilmente al sistema de archivos de un nodo de proceso en un trabajo montando o descargando el almacenamiento en el nodo.

mltable es una abstracción de los datos tabulares que se van a usar para trabajos de AutoML, trabajos paralelos y algunos escenarios avanzados. Si acaba de empezar a usar Azure Machine Learning y no usa AutoML, le recomendamos encarecidamente que empiece por los URI.

Almacén de datos

Los almacenes de datos de Azure Machine Learning conservan de forma segura la información de conexión en el almacenamiento de datos de Azure, por lo que no tiene que codificarla en los scripts. Puede registrar y crear un almacén de datos para conectarse fácilmente a la cuenta de almacenamiento y acceder a los datos del servicio de almacenamiento subyacente. La CLI v2 y SDK v2 admiten los siguientes tipos de servicios de almacenamiento basados en la nube:

  • Azure Blob Container
  • Recurso compartido de archivos de Azure
  • Azure Data Lake
  • Azure Data Lake Gen2

Entorno

Los entornos de Azure Machine Learning son una encapsulación del entorno en el que se produce el entrenamiento del aprendizaje automático. Especifican los paquetes de software, las variables de entorno y la configuración de software en torno a los scripts de entrenamiento y puntuación. Los entornos son entidades administradas y con control de versiones en el área de trabajo de Machine Learning. Los entornos permiten flujos de trabajo de aprendizaje automático reproducibles, auditables y portátiles en varios procesos.

Tipos de entorno

Azure Machine Learning admite dos tipos de entornos: mantenidos y personalizados.

Los entornos mantenidos los proporciona Azure Machine Learning y están disponibles en el área de trabajo de forma predeterminada. Están concebidos para usarse tal cual; contienen colecciones de paquetes y configuraciones de Python que le ayudarán a empezar a usar diferentes marcos de aprendizaje automático. Estos entornos creados previamente también permiten un tiempo de implementación más rápido. Para obtener una lista completa, consulte el artículo sobre los entornos mantenidos.

En entornos personalizados, es responsable de configurar el entorno. Asegúrese de instalar los paquetes y cualquier otra dependencia que necesite el script de entrenamiento o puntuación en el proceso. Azure Machine Learning permite crear un entorno propio mediante

  • Una imagen de Docker
  • Una imagen base de Docker con un YAML de Conda para mayor personalización
  • Un contexto de compilación de Docker

Modelo

Los modelos de aprendizaje automático de Azure constan de los archivos binarios que representan un modelo de aprendizaje automático y los metadatos correspondientes. Los modelos se pueden crear a partir de un archivo o directorio local o remoto. En el caso de las ubicaciones remotas, se admiten las ubicaciones https, wasbs y azureml. Se realizará un seguimiento del modelo creado en el área de trabajo con el nombre y la versión especificados. Azure Machine Learning admite tres tipos de formato de almacenamiento para los modelos:

  • custom_model
  • mlflow_model
  • triton_model

Área de trabajo

El área de trabajo es el recurso de nivel superior para Azure Machine Learning, que proporciona un lugar centralizado para trabajar con todos los artefactos que crea al usar Azure Machine Learning. El área de trabajo conserva un historial de todos los trabajos, como registros, métricas, resultados y una instantánea de sus scripts. El área de trabajo almacena referencias a recursos como almacenes de datos y proceso. También contiene todos los activos, como modelos, entornos, componentes y activos de datos.

Pasos siguientes

¿Qué es Azure Machine Learning?