Administración de presupuestos, costos y cuota de Azure Machine Learning a escala organizativa

A la hora de administrar los costos de proceso en los que se incurre en Azure Machine Learning, en una escala organizativa con muchas cargas de trabajo, muchos equipos y usuarios, existen numerosos desafíos de administración y optimización a los que debe hacer frente.

En este artículo, se presentan los procedimientos recomendados para optimizar costos, administrar presupuestos y compartir cuota con Azure Machine Learning. Refleja la experiencia y las lecciones aprendidas de trabajar con equipos de aprendizaje automático internamente en Microsoft y en asociación con nuestros clientes. Aprenderá a:

Optimización de los procesos para cumplir los requisitos de carga de trabajo

Al iniciar un nuevo proyecto de aprendizaje automático, puede que sea necesario realizar un trabajo exploratorio para obtener una buena perspectiva de los requisitos de proceso. En esta sección se proporcionan recomendaciones sobre cómo puede determinar la opción de SKU de máquina virtual adecuada para el entrenamiento, la inferencia o como estación de trabajo desde la que trabajar.

Determinación del tamaño de proceso para el entrenamiento

Los requisitos de hardware de la carga de trabajo de entrenamiento pueden variar de un proyecto a otro. Para cumplir estos requisitos, la instancia de proceso de Azure Machine Learning ofrece varios tipos de máquinas virtuales:

  • Uso general: una relación equilibrada entre CPU y memoria.
  • Optimizada para memoria: memoria alta en relación con la CPU.
  • Optimizado para proceso: una relación elevada entre CPU y memoria.
  • Proceso de alto rendimiento: ofrece un rendimiento de primer nivel, escalabilidad y rentabilidad para diversas cargas de trabajo de HPC reales.
  • Instancias con GPU: máquinas virtuales especializadas específicas para la representación de gráficos pesados y la edición de vídeo, así como para el entrenamiento y la inferencia de modelos (ND) con aprendizaje profundo.

Puede que aún no sepa cuáles son los requisitos de proceso. En este escenario, se recomienda comenzar con cualquiera de las siguientes opciones predeterminadas rentables. Estas opciones son para pruebas ligeras y para cargas de trabajo de entrenamiento.

Tipo Tamaño de la máquina virtual Especificaciones
CPU Standard_DS3_v2 4 núcleos, 14 gigabytes (GB) de RAM, almacenamiento de 28 GB
GPU Standard_NC6 6 núcleos, 56 gigabytes (GB) de RAM, almacenamiento de 380 GB, GPU NVIDIA Tesla K80

Determinar el mejor tamaño de máquina virtual para su escenario puede consistir en un procedimiento de prueba y error. Estos son algunos aspectos a tener en cuenta.

  • Si necesita una CPU:
    • Use una máquina virtual optimizada para memoria si va a entrenar con grandes conjuntos de datos.
    • Use una máquina virtual optimizada para proceso si va a realizar inferencias en tiempo real u otras tareas confidenciales de latencia.
    • Use una máquina virtual con más núcleos y RAM para acelerar los tiempos de entrenamiento.
  • Si necesita una GPU, consulte los tamaños de máquinas virtuales optimizadas para GPU para más información sobre cómo seleccionar una máquina virtual.
    • Si va a realizar un entrenamiento distribuido, use tamaños de máquina virtual que tengan varias GPU.
    • Si va a realizar un entrenamiento distribuido en varios nodos, use GPU que tengan conexiones NVLink.

Cuando vaya a seleccionar el tipo de máquina virtual y la SKU que mejor se adapten a la carga de trabajo, evalúe las SKU de máquina virtual comparables teniendo en cuenta un equilibrio entre el rendimiento y los precios de la CPU y la GPU. Desde una perspectiva de administración de costos, un trabajo puede funcionar razonablemente bien en varias SKU.

Algunas GPU, como las de la familia NC, especialmente la SKU NC_Promo, tienen capacidades similares a otras GPU, como baja latencia y capacidad para administrar varias cargas de trabajo de proceso en paralelo. Están disponibles a precios con descuento en comparación con algunas de las otras GPU. La selección adecuada de la SKU de máquina virtual para la carga de trabajo podría suponer un ahorro considerable al final.

Un recordatorio sobre la importancia del uso es que suscribirse para obtener un mayor número de GPU no se traduce necesariamente en resultados más rápidos. En su lugar, asegúrese de que las GPU se utilicen al completo. Por ejemplo, compruebe la necesidad de NVIDIA CUDA. Aunque podría ser necesaria para un funcionamiento de GPU de alto rendimiento, es posible que el trabajo no dependa de ella.

Determinación del tamaño de proceso para la inferencia

Los requisitos de proceso para escenarios de inferencia difieren de los escenarios de entrenamiento. Las opciones disponibles difieren en función de si el escenario requiere inferencia sin conexión por lotes o requiere inferencia en línea en tiempo real.

Para escenarios de inferencia en tiempo real, tenga en cuenta las siguientes sugerencias:

  • Use funcionalidades de generación de perfiles en el modelo con Azure Machine Learning para determinar cuánta CPU y memoria necesita asignar para el modelo al implementarlo como un servicio web.
  • Si va a realizar inferencias en tiempo real pero no necesita alta disponibilidad, implemente en Azure Container Instances (sin selección de SKU).
  • Si va a realizar inferencias en tiempo real y necesita alta disponibilidad, implemente en Azure Kubernetes Service.
    • Si va a usar modelos de aprendizaje automático tradicionales y recibe < 10 consultas por segundo, comience con una SKU de CPU. Las SKU de la serie F suelen funcionar bien.
    • Si va a utilizar modelos de aprendizaje profundo y recibe > 10 consultas por segundo, pruebe una SKU de GPU de NVIDIA (NCasT4_v3 a menudo funciona bien) con Triton.

Para escenarios de inferencia por lotes, tenga en cuenta las siguientes sugerencias:

  • Cuando use canalizaciones de Azure Machine Learning para la inferencia por lotes, siga las instrucciones de Determinación del tamaño de proceso para el entrenamiento para elegir el tamaño inicial de la máquina virtual.
  • Optimice el costo y el rendimiento mediante el escalado horizontal. Uno de los métodos clave para optimizar el costo y el rendimiento es paralelizar la carga de trabajo con la ayuda de un paso de ejecución en paralelo en Azure Machine Learning. Esta canalización le permite usar muchos nodos más pequeños para ejecutar la tarea en paralelo, lo que le permite escalar horizontalmente. No obstante, se produce una sobrecarga en la paralelización. En función de la carga de trabajo y del grado de paralelismo que se pueda lograr, un paso de ejecución en paralelo puede ser o no una opción.

Determinación del tamaño de la instancia de proceso

Para el desarrollo interactivo, se recomienda la instancia de proceso de Azure Machine Learning. La oferta de instancia de proceso (CI) ofrece un proceso de nodo único que está enlazado a un solo usuario y se puede usar como estación de trabajo en la nube.

Algunas organizaciones no permiten el uso de datos de producción en estaciones de trabajo locales, han aplicado restricciones al entorno de la estación de trabajo o restringen la instalación de paquetes y dependencias en el entorno de TI corporativo. Una instancia de proceso se puede usar como estación de trabajo para superar la limitación. Ofrece un entorno seguro con acceso a datos de producción y se ejecuta en imágenes que incluyen paquetes y herramientas populares para ciencia de datos preinstalados.

Cuando se ejecuta la instancia de proceso, se factura al usuario el proceso de la máquina virtual, un equilibrador de carga estándar (incluidas las reglas LB y de salida y los datos procesados), el disco del sistema operativo (disco P10 administrado por SSD prémium), el disco temporal (el tipo de disco temporal depende del tamaño de máquina virtual elegido) y la dirección IP pública. Para ahorrar costos, se recomienda a los usuarios que tengan en cuenta lo siguiente:

  • Inicie y detenga la instancia de proceso cuando no esté en uso.
  • Trabaje con una muestra de los datos en una instancia de proceso y escale horizontalmente a clústeres de proceso para trabajar con todo el conjunto de datos.
  • Envíe trabajos de experimentación en modo de destino de proceso local en la instancia de proceso durante el desarrollo o las pruebas, o cuando cambie a la capacidad de proceso compartida al enviar trabajos a escala completa. Por ejemplo, durante muchas épocas, con conjuntos completos de datos y búsqueda de hiperparámetros.

Si detiene la instancia de proceso, se detiene la facturación de las horas de proceso de la máquina virtual, el disco temporal y los costos de datos procesados del equilibrador de carga estándar. Tenga en cuenta que el usuario seguirá pagando por el disco del sistema operativo y las reglas LB y de salida incluidas en el equilibrador de carga estándar, incluso cuando la instancia de proceso esté detenida. Los datos guardados en el disco del sistema operativo se conservan mediante detenciones y reinicios.

Ajuste del tamaño de máquina virtual elegido mediante la supervisión del uso de procesos

Puede ver información sobre el uso de procesos en Azure Machine Learning mediante Azure Monitor. Puede ver más detalles sobre la implementación y el registro del modelo, los detalles de cuota, como los nodos activos e inactivos, los detalles de ejecución, como las ejecuciones canceladas y las completadas, y el uso de procesos empleados por GPU y CPU.

En función de la información de los detalles de supervisión, puede planear o ajustar mejor el uso de los recursos en el equipo. Por ejemplo, si observa muchos nodos inactivos durante la última semana, puede colaborar con los propietarios de las áreas de trabajo correspondientes para actualizar la configuración del clúster de proceso y evitar este costo adicional. Las ventajas de analizar los patrones de uso pueden ayudar con la previsión de costos y con mejoras del presupuesto.

Puede acceder a estas métricas directamente desde Azure Portal. Vaya al área de trabajo de Azure Machine Learning y seleccione Métricas en la sección de supervisión del panel izquierdo. A continuación, puede seleccionar detalles sobre lo que le gustaría ver, como métricas, agregación y períodos de tiempo. Para más información, consulte la página de documentación Supervisión de Azure Machine Learning.

Diagrama de las métricas de Azure Monitor para Azure Machine Learning

Cambio entre el proceso en la nube local, de nodo único y de varios nodos durante el desarrollo

Hay distintos requisitos de proceso y herramientas a lo largo del ciclo de vida del aprendizaje automático. Se puede acceder a la interfaz de Azure Machine Learning mediante una interfaz de SDK y CLI prácticamente con cualquier configuración preferida de la estación de trabajo para cumplir con estos requisitos.

Para ahorrar costos y trabajar de forma productiva, se recomienda:

  • Clonar el código base de experimentación localmente mediante Git y enviar trabajos al proceso en la nube mediante el SDK o la CLI de Azure Machine Learning.
  • Si el conjunto de datos es grande, considere la posibilidad de administrar una muestra de los datos en la estación de trabajo local y, al mismo tiempo, mantener el conjunto de datos completo en el almacenamiento en la nube.
  • Parametrizar el código base de experimentación para que pueda configurar los trabajos para que se ejecuten con un número variable de épocas o en conjuntos de datos de diferentes tamaños.
  • No codificar de forma rígida la ruta de acceso de la carpeta del conjunto de datos. A continuación, puede volver a utilizar fácilmente el mismo código base con distintos conjuntos de datos y en el contexto de ejecución local y en la nube.
  • Arrancar los trabajos de experimentación en modo de destino de proceso local mientras desarrolla o realiza pruebas, o cuando cambia a una capacidad de clúster de proceso compartido al enviar trabajos a escala completa.
  • Si el conjunto de datos es grande, se recomienda trabajar con una muestra de datos en la estación de trabajo local o en la de la instancia de proceso, mientras escala al proceso en la nube en Azure Machine Learning para trabajar con el conjunto completo de datos.
  • Si los trabajos tardan mucho tiempo en ejecutarse, considere la posibilidad de optimizar el código base para que el entrenamiento distribuido permita el escalado horizontal.
  • Diseñar las cargas de trabajo del entrenamiento distribuido para lograr la elasticidad del nodo, para permitir un uso flexible del proceso de nodo único y de varios nodos, y facilitar el uso del proceso que tiene prioridad.

Combinación de tipos de proceso mediante canalizaciones de Azure Machine Learning

Cuando organiza los flujos de trabajo de aprendizaje automático, puede definir una canalización con varios pasos. Cada paso de la canalización se puede ejecutar en su propio tipo de proceso. Esto le permite optimizar el rendimiento y el costo para satisfacer los distintos requisitos de proceso a lo largo del ciclo de vida del aprendizaje automático.

Impulsar el mejor uso del presupuesto de un equipo.

Aunque las decisiones de asignación de presupuestos podrían estar fuera del ámbito de control de un equipo individual, un equipo normalmente está capacitado para usar su presupuesto asignado según su mejor criterio. Mediante el equilibrio inteligente entre la prioridad del trabajo y el rendimiento y los costos, un equipo puede conseguir un mayor uso del clúster, reducir el costo general y usar un mayor número de horas de proceso del mismo presupuesto. Esto puede dar lugar a una mayor productividad del equipo.

Optimización de los costos de los recursos de proceso compartidos

La clave para optimizar los costos de los recursos de proceso compartidos es asegurarse de que se esté utilizando toda su capacidad. Estas son algunas sugerencias para optimizar los costos de los recursos compartidos:

  • Cuando use instancias de proceso, solo debe activarlas cuando tenga código para ejecutar. Apáguelas cuando no se utilicen.
  • Cuando use clústeres de proceso, establezca el número mínimo de nodos en 0 y el máximo en un número que se determine en función de las restricciones de presupuesto. Use la Calculadora de precios de Azure para calcular el costo de uso completo de un nodo de la SKU de máquina virtual elegida. El escalado automático reducirá verticalmente todos los nodos de proceso cuando no haya nadie que los use. Solo se escalará verticalmente hasta el número de nodos para los que tiene presupuesto. Puede configurar el escalado automático para que reduzca verticalmente todos los nodos de proceso.
  • Supervise los usos de los recursos, como el uso de CPU y el uso de GPU al entrenar modelos. Si los recursos no se usan por completo, modifique el código para usar mejor los recursos o reduzca verticalmente a tamaños de máquina virtual más pequeños o más baratos.
  • Evalúe si puede crear recursos de proceso compartidos para su equipo a fin de evitar las ineficiencias en los procesos que generan las operaciones de escalado del clúster.
  • Optimice las directivas de tiempo de espera de escalado automático del clúster de proceso en función de las métricas de uso.
  • Use cuotas de área de trabajo para controlar la cantidad de recursos de proceso a los que tienen acceso las áreas de trabajo individuales.

Incorporación de la prioridad de programación mediante la creación de clústeres para varias SKU de máquina virtual

Para actuar con restricciones de cuota y presupuesto, un equipo debe lograr un equilibrio entre la ejecución a tiempo de los trabajos y el costo, para garantizar que los trabajos importantes se ejecuten a tiempo y que se utilice el presupuesto de la mejor manera posible.

Para impulsar el mejor uso de los procesos, se recomienda a los equipos crear clústeres de varios tamaños y con estas prioridades de máquina virtual: prioridad baja y dedicada. Los procesos con prioridad baja usan la capacidad sobrante de Azure y, por tanto, incluyen tarifas con descuento. Como inconveniente, puede que se le dé más prioridad a estas máquinas cada vez que llega una solicitud de prioridad más alta.

Con clústeres de diferente tamaño y prioridad, puede surgir la noción de prioridad de programación. Por ejemplo, si hay trabajos experimentales y de producción que compiten por la misma cuota de GPU de NC, puede que un trabajo de producción tenga prioridad para ejecutarse antes que el trabajo experimental. En ese caso, ejecute el trabajo de producción en el clúster de proceso dedicado y el trabajo experimental en el clúster de proceso de prioridad baja. Si la cuota es insuficiente, el trabajo experimental tendrá menor prioridad que el trabajo de producción.

Junto a la prioridad de la máquina virtual, considere la posibilidad de ejecutar trabajos en varias SKU de máquina virtual. Puede que un trabajo tarde más tiempo en ejecutarse en una instancia de máquina virtual con una GPU P40 que en una GPU V100. Sin embargo, dado que las instancias de máquina virtual V100 puede que estén ocupadas o que la cuota se esté utilizando al completo, el tiempo de finalización en la P40 podría ser aún más rápido desde la perspectiva del rendimiento del trabajo. También puede considerar la posibilidad de ejecutar trabajos con menor prioridad en instancias de máquina virtual menos eficientes y más económicas desde una perspectiva de administración de costos.

Terminación anticipada de una ejecución cuando el entrenamiento no converge

Cuando realiza experimentos continuamente para mejorar un modelo con respecto a su base de referencia, es posible que realice varias ejecuciones de experimentos, cada una con configuraciones ligeramente diferentes. Para una ejecución, puede ajustar los conjuntos de datos de entrada. En otra, puede realizar un cambio de hiperparámetros. No todos los cambios pueden ser igual de efectivos. Al principio, ha detectado que un cambio no tenía el efecto previsto en la calidad del entrenamiento del modelo. Para detectar si el entrenamiento no converge, supervise el progreso del entrenamiento durante una ejecución. Por ejemplo, mediante el registro de las métricas de rendimiento después de cada época de entrenamiento. Considere la posibilidad de terminar por anticipado el trabajo para liberar recursos y presupuesto para otra prueba.

Planeación, administración y uso compartido de presupuestos, costos y cuota

A medida que una organización aumenta su número de casos de uso y equipos de aprendizaje automático, requiere una mayor madurez operativa por parte de los equipos de TI y finanzas, así como coordinación entre los equipos de aprendizaje automático individuales para garantizar unas operaciones eficaces. La administración de cuotas y la capacidad a escala de la empresa es importante para abordar la escasez de recursos de proceso y superar la sobrecarga de administración.

En esta sección se analizan los procedimientos recomendados para planear, administrar y compartir presupuestos, costos y cuotas a escala empresarial. Se basa en las lecciones que hemos aprendido de la administración de muchos recursos de entrenamiento de GPU para el aprendizaje automático internamente en Microsoft.

Descripción del gasto en recursos con Azure Machine Learning

Uno de los mayores desafíos como administrador para planear las necesidades de proceso es empezar a trabajar sin disponer de información histórica como estimación para la base de referencia. En un sentido práctico, la mayoría de los proyectos comenzarán con un pequeño presupuesto como primer paso.

Para entender a dónde va el presupuesto, es fundamental saber de dónde proceden los costos de Azure Machine Learning:

  • Azure Machine Learning solo cobra por la infraestructura de proceso usada y no agrega ningún suplemento a los costos de proceso.
  • Cuando se crea un área de trabajo de Azure Machine Learning, también se crean algunos otros recursos para habilitar Azure Machine Learning: Key Vault, Application Insights, Azure Storage y Azure Container Registry. Estos recursos se usan en Azure Machine Learning y deberá pagar por ellos.
  • Hay costos asociados con el proceso administrado, como clústeres de entrenamiento, instancias de proceso y puntos de conexión de inferencia administrados. Con estos recursos de proceso administrados, hay que tener en cuenta los siguientes costos de infraestructura: máquinas virtuales, red virtual, equilibrador de carga, ancho de banda y almacenamiento.

El uso de etiquetas mejora el seguimiento de los patrones de gasto y la obtención de mejores informes

A menudo, los administradores quieren realizar un seguimiento de los costos de distintos recursos en Azure Machine Learning. El etiquetado es una solución natural a este problema y está en consonancia con el enfoque general que usan tanto Azure como muchos otros proveedores de servicios en la nube. La posibilidad de usar etiquetas permite ver el desglose de costos en el nivel de proceso, lo que concede acceso a una vista más detallada, lo que ayuda a mejorar la supervisión de costos y los informes, y a ofrece una mayor transparencia.

El etiquetado permite colocar etiquetas personalizadas en las áreas de trabajo y los procesos (desde plantillas de Azure Resource Manager y Estudio de Azure Machine Learning) para filtrar aún más por estos recursos en Azure Cost Management en función de estas etiquetas,con el fin de observar patrones de gasto. Esta funcionalidad se puede usar mejor para escenarios internos de devolución de cargos. Además, las etiquetas pueden ser útiles para capturar metadatos o detalles asociados al proceso, por ejemplo, un proyecto, un equipo, cierto código de facturación, etc. Esto hace que el etiquetado sea muy beneficioso para medir cuánto dinero se gasta en diferentes recursos y, por lo tanto, obtener información más detallada sobre los patrones de costo y gasto de los distintos equipos o proyectos.

También hay etiquetas insertadas por el sistema colocadas en los procesos que le permiten filtrar en la página Análisis de costes por la etiqueta "Tipo de proceso" para ver un desglose por procesos del gasto total y determinar qué categoría de recursos de proceso podría atribuir a la mayoría de los costes. Esto es especialmente útil para obtener más visibilidad sobre los patrones de costes de entrenamiento frente a inferencia.

Captura de pantalla de la vista de análisis de costes filtrada por tipo de proceso.

Gobernanza y restricción del uso de procesos por directiva

Cuando administra un entorno de Azure con muchas cargas de trabajo, puede suponer un desafío disponer de una información general sobre el gasto en recursos. Azure Policy puede ayudar a controlar el gasto en recursos mediante la restricción de patrones de uso concretos en el entorno de Azure.

En concreto, para Azure Machine Learning se recomienda configurar directivas que permitan únicamente el uso de SKU de máquina virtual específicas. Las directivas pueden ayudar a evitar y controlar la selección de máquinas virtuales costosas. Las directivas también se pueden usar para aplicar el uso de SKU de máquinas virtuales de prioridad baja.

Asignación y administración de la cuota en función de la prioridad empresarial

Azure le permite establecer límites para la asignación de cuota en una suscripción y en el nivel del área de trabajo de Azure Machine Learning. Restringir quién puede administrar la cuota mediante el control de acceso basado en roles (RBAC) de Azure puede ayudar a garantizar el uso de los recursos y la predicción de los costos.

La disponibilidad de la cuota de GPU puede ser insuficiente en todas las suscripciones. Para garantizar un uso elevado de la cuota en las cargas de trabajo, se recomienda supervisar si la cuota se usa y se asigna a las cargas de trabajo de la mejor manera.

En Microsoft, se determina periódicamente si las cuotas de GPU se usan y asignan de la mejor manera a los equipos de aprendizaje automático mediante la evaluación de las necesidades de capacidad según la prioridad empresarial.

Confirmación de la capacidad con antelación

Si tiene una buena estimación de la cantidad de proceso que se usará en el próximo año o en los próximos años, puede comprar Azure Reserved VM Instances con un costo reducido. Hay contratos de compra de uno o tres años. Dado que Azure Reserved VM Instances tienen descuento, puede haber un ahorro significativo en los costos en comparación con los precios de pago por uso.

Azure Machine Learning admite las instancias de proceso reservadas. Los descuentos se aplican automáticamente al proceso administrado de Azure Machine Learning.

Administración de la retención de datos

Cada vez que se ejecuta una canalización de aprendizaje automático, se pueden generar conjuntos de datos intermedios en cada paso de la canalización para el almacenamiento en caché y la reutilización de datos. El crecimiento de los datos como resultado de la salida de estas canalizaciones de aprendizaje automático puede convertirse en algo complejo para una organización que ejecuta muchos experimentos de aprendizaje automático.

Normalmente, los científicos de datos no dedican su tiempo a limpiar los conjuntos de datos intermedios que se generan. Con el tiempo, la cantidad de datos que se generan crece. Azure Storage incluye una funcionalidad para mejorar la administración del ciclo de vida de los datos. Con la administración del ciclo de vida de Azure Blob Storage, puede configurar directivas generales para mover los datos que no se usan a capas de almacenamiento en frío y ahorrar costos.

Consideraciones sobre la optimización de costos de infraestructura

Redes

Los costos de red de Azure se producen por el ancho de banda de salida de los centros de datos de Azure. Todos los datos de entrada a un centro de datos de Azure son gratuitos. La clave para reducir el costo de red es implementar todos los recursos en la misma región del centro de datos siempre que sea posible. Si puede implementar el área de trabajo de Azure Machine Learning y el proceso en la misma región que tiene los datos, puede disfrutar de un menor costo y un mayor rendimiento.

Es posible que quiera tener una conexión privada entre la red local y la red de Azure para tener un entorno de nube híbrida. ExpressRoute le permite hacerlo pero, teniendo en cuenta el alto costo de ExpressRoute, puede que sea más rentable salir de una configuración de nube híbrida y trasladar todos los recursos a la nube de Azure.

Azure Container Registry

En el caso de Azure Container Registry, entre los factores determinantes para la optimización de costos se incluyen:

  • Rendimiento necesario para las descargas de imágenes de Docker desde el registro de contenedor a Azure Machine Learning
  • Requisitos para características de seguridad empresariales, como Azure Private Link

En escenarios de producción en los que se requiere un alto rendimiento o seguridad empresarial, se recomienda la SKU Premium de Azure Container Registry.

En el caso de escenarios de desarrollo y pruebas en los que el rendimiento y la seguridad son menos críticos, se recomienda la SKU Estándar o Premium.

La SKU Básica de Azure Container Registry no se recomienda para Azure Machine Learning. No se recomienda debido a su bajo rendimiento y bajo almacenamiento incluido, el cual se puede superar rápidamente con las imágenes de Docker de un tamaño relativamente grande (1 GB o más) de Azure Machine Learning.

Tenga en cuenta la disponibilidad de tipos de proceso al elegir regiones de Azure

Cuando elija una región para el proceso, tenga en cuenta la disponibilidad de la cuota de proceso. Las regiones populares y más grandes, como Este de EE. UU., Oeste de EE. UU. y Oeste de Europa, tienden a tener valores de cuota predeterminados más altos y una mayor disponibilidad que la mayoría de las CPU y GPU, en comparación con otras regiones con restricciones de capacidad más estrictas.

Más información

Realice un seguimiento de los costos entre unidades de negocio, entornos o proyectos mediante Cloud Adoption Framework

Pasos siguientes

Para más información sobre cómo organizar y configurar entornos de Azure Machine Learning, consulte Organización y configuración de entornos de Azure Machine Learning.

Para obtener información sobre los procedimientos recomendados de Machine Learning DevOps con Azure Machine Learning, consulte la guía de aprendizaje Machine Learning DevOps.