Glosario de Azure Machine Learning

El glosario de Azure Machine Learning es un breve diccionario de terminología para la plataforma de Machine Learning. Para conocer la terminología general de Azure, consulte también:

Componente

Un componente de Machine Learning es un fragmento de código independiente que realiza un paso en una canalización de aprendizaje automático. Los componentes son los bloques de creación de las canalizaciones de aprendizaje automático avanzadas. Los componentes pueden realizar tareas como el procesamiento de datos, el entrenamiento del modelo y la puntuación del modelo. Un componente es análogo a una función. Tiene un nombre y parámetros, espera la entrada y devuelve la salida.

Proceso

Un proceso es un recurso de proceso designado en el que se ejecuta el trabajo o se hospeda el punto de conexión. Machine Learning admite los siguientes tipos de proceso:

  • Clúster de proceso: una infraestructura de proceso administrada que puede usar para crear fácilmente un clúster de nodos de proceso de CPU o GPU en la nube.

    Nota:

    En lugar de crear un clúster de proceso, usa el proceso sin servidor para descargar la administración del ciclo de vida de proceso en Azure Machine Learning.

  • Instancia de proceso: un entorno de desarrollo totalmente configurado y administrado en la nube. Puede usar la instancia como proceso de entrenamiento o inferencia para desarrollo y pruebas. Es similar a una máquina virtual en la nube.

  • Clúster de Kubernetes: se usa para implementar modelos de aprendizaje automático entrenados en Azure Kubernetes Service (AKS). Puede crear un clúster de AKS desde el área de trabajo de Machine Learning o adjuntar un clúster de AKS existente.

  • Proceso asociado: puede adjuntar sus propios recursos de proceso al área de trabajo y usarlos para fines de entrenamiento e inferencia.

Data

Machine Learning permite trabajar con diferentes tipos de datos:

  • URI (una ubicación en el almacenamiento local o en la nube):
    • uri_folder
    • uri_file
  • Tablas (una abstracción de datos tabulares):
    • mltable
  • Primitivas:
    • string
    • boolean
    • number

En la mayoría de los escenarios, se usan URI (uri_folder y uri_file) para identificar una ubicación en el almacenamiento que se puede asignar fácilmente al sistema de archivos de un nodo de proceso en un trabajo, mediante el montaje o la descarga del almacenamiento en el nodo.

El parámetro mltable es una abstracción para los datos tabulares que se usan para trabajos de aprendizaje automático automatizado (AutoML), trabajos paralelos y algunos escenarios avanzados. Si acaba de empezar a usar Machine Learning y no usa AutoML, le recomendamos encarecidamente que empiece por los URI.

Almacén de datos

Los almacenes de datos de Machine Learning conservan de forma segura la información de conexión con el almacenamiento de datos en Azure para que no tenga que codificarla en los scripts. Puede registrar y crear un almacén de datos para conectarse fácilmente a la cuenta de almacenamiento y acceder a los datos del servicio de almacenamiento subyacente. La CLI de Azure Machine Learning v2 y SDK v2 admiten los siguientes tipos de servicios de almacenamiento basados en la nube:

  • Contenedor de Azure Blob Storage
  • Recurso compartido de Azure Files
  • Almacén de Azure Data Lake
  • Azure Data Lake Storage Gen2

Environment

Los entornos de Machine Learning son una encapsulación del entorno en el que se produce el entrenamiento del aprendizaje automático. Especifican los paquetes de software, las variables de entorno y la configuración de software en torno a los scripts de entrenamiento y puntuación. Los entornos son entidades administradas y con control de versiones en el área de trabajo de Machine Learning. Los entornos permiten flujos de trabajo de aprendizaje automático reproducibles, auditables y portátiles en varios procesos.

Tipos de entorno

Machine Learning admite dos tipos de entornos: mantenidos y personalizados.

Los entornos mantenidos los proporciona Machine Learning y están disponibles en el área de trabajo de forma predeterminada. Están diseñados para usarse tal como están. Contienen colecciones de paquetes de Python y configuraciones que le ayudarán a empezar a usar diferentes marcos de aprendizaje automático. Estos entornos creados previamente también permiten un tiempo de implementación más rápido. Para recuperar una lista completa de los entornos disponibles, consulte Entornos de Azure Machine Learning con la CLI y el SDK (v2).

En entornos personalizados, es responsable de configurar el entorno. Asegúrese de instalar los paquetes y cualquier otra dependencia que necesite el script de entrenamiento o puntuación en el proceso. Machine Learning le permite crear su propio entorno mediante:

  • Una imagen de Docker
  • Una imagen base de Docker con un YAML de Conda para mayor personalización
  • Un contexto de compilación de Docker

Modelo

Los modelos de aprendizaje automático de Machine Learning constan de los archivos binarios que representan un modelo de aprendizaje automático y los metadatos correspondientes. Puede crear modelos a partir de un archivo o directorio local o remoto. En el caso de las ubicaciones remotas, se admiten las ubicaciones https, wasbsy azureml. Se realiza un seguimiento del modelo creado en el área de trabajo bajo el nombre y la versión especificados. Machine Learning admite tres tipos de formatos de almacenamiento para modelos:

  • custom_model
  • mlflow_model
  • triton_model

Área de trabajo

El área de trabajo es el recurso de nivel superior de Machine Learning. Proporciona un lugar centralizado para trabajar con todos los artefactos que cree al usar Machine Learning. El área de trabajo conserva un historial de todos los trabajos, como registros, métricas, resultados y una instantánea de sus scripts. El área de trabajo almacena referencias a recursos como almacenes de datos y proceso. También contiene todos los activos, como modelos, entornos, componentes y activos de datos.

Pasos siguientes

¿Qué es Azure Machine Learning?