Compartir a través de


Tipos de implementación para modelos de Azure AI Foundry

Azure AI Foundry hace que los modelos estén disponibles mediante el concepto de implementación de modelos en Azure AI Foundry Services (anteriormente conocido como Azure AI Services). Las implementaciones de modelos también son recursos de Azure y, cuando se crean, conceden acceso a un modelo determinado en determinadas configuraciones. Esta configuración incluye la infraestructura necesaria para procesar las solicitudes.

Los modelos de Azure AI Foundry proporcionan a los clientes opciones de estructura de hospedaje que se ajustan a sus patrones empresariales y de uso. Estas opciones se traducen a distintos tipos de implementaciones (o SKU) que están disponibles en el momento de la implementación del modelo en el recurso de Azure AI Foundry.

El servicio ofrece dos tipos principales de implementaciones: estándar y aprovisionadas. Para un tipo de implementación determinado, los clientes pueden alinear sus cargas de trabajo con sus requisitos de procesamiento de datos. Pueden elegir una ubicación geográfica de Azure (Standard o Provisioned-Managed), una zona de datos especificada por Microsoft (DataZone- Standard o DataZone Provisioned-Managed) o una opción de procesamiento global (Global-Standard o Global Provisioned-Managed).

Para los modelos ajustados, un tipo de implementación adicional Developer proporciona un medio rentable de evaluación de modelos personalizados, pero sin retención de datos.

Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Como parte del diseño de la solución, debe tomar decisiones clave en dos categorías:

  • Ubicación de procesamiento de datos
  • Volumen de llamadas

Captura de pantalla que muestra cómo personalizar el tipo de implementación para una implementación de modelo determinada.

Ubicaciones de procesamiento de datos de implementación de Azure AI Foundry

En el caso de las implementaciones estándar, hay tres opciones de tipo de implementación entre las que elegir: global, zona de datos y geografía de Azure. En el caso de las implementaciones aprovisionadas, hay dos opciones de tipo de implementación entre las que elegir: global y geografía de Azure. Se recomienda Global Standard como punto de partida.

Implementaciones globales

Las implementaciones globales usan la infraestructura global de Azure para enrutar dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esto significa que la opción global ofrece los límites de rendimiento inicial más altos y la mejor disponibilidad del modelo, pero aún así proporciona nuestro SLA de disponibilidad y baja latencia. En el caso de cargas de trabajo de gran volumen por encima de los niveles de uso especificados en los planes Estándar y Global Estándar, puede experimentar una mayor variación de latencia. En el caso de los clientes que requieren la varianza de latencia menor en el uso de cargas de trabajo grandes, se recomienda usar nuestros tipos de implementación aprovisionados.

Nuestras implementaciones globales son la primera ubicación para todos los nuevos modelos y características. Dependiendo del volumen de llamadas, los clientes con requisitos de gran volumen y baja variación de latencia deben considerar nuestros tipos de implementación provisionados.

Implementaciones de zona de datos

En el caso de cualquier tipo de implementación con la etiqueta Global, las solicitudes y respuestas se pueden procesar en cualquier geografía donde se implemente el modelo de Azure AI Foundry pertinente. Obtenga más información sobre la disponibilidad de regiones de los modelos.

Para cualquier tipo de implementación etiquetado como DataZone, las solicitudes y respuestas se pueden procesar en cualquier zona geográfica dentro de la zona de datos especificada, tal como se define en Microsoft. Si crea una implementación de DataZone en un recurso de Azure AI Foundry ubicado en Estados Unidos, es posible que las solicitudes y respuestas se procesen en cualquier parte de Estados Unidos. Si crea una implementación de DataZone en un recurso de Azure AI Foundry ubicado en una nación miembro de la Unión Europea, es posible que las solicitudes y respuestas se procesen en esa o en cualquier otra nación miembro de la Unión Europea.

Para los tipos de implementación Global y DataZone , los datos almacenados en reposo, como los datos cargados, se almacenan en la geografía designada por el cliente. Solo la ubicación del procesamiento se ve afectada cuando un cliente usa un tipo de implementación Global o DataZone en un recurso de Azure AI Foundry; Los compromisos de cumplimiento y procesamiento de datos de Azure siguen siendo aplicables.

Nota:

Con los tipos de implementación Estándar global y Estándar de zona de datos, si la región primaria experimenta una interrupción en el servicio, todo el tráfico que se enruta inicialmente a esta región se ve afectado. Para más información, consulte la guía de continuidad empresarial y recuperación ante desastres.

Estándar global

  • Nombre de SKU en el código: GlobalStandard

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry. Obtenga más información sobre la retención de datos.

Las implementaciones globales están disponibles en los mismos recursos de Azure AI Foundry que los tipos de implementación no globales. Sin embargo, permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. Global Standard proporciona la cuota predeterminada más alta y elimina la necesidad de equilibrar la carga entre varios recursos.

Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Para más información, consulte la página Cuotas. En el caso de las aplicaciones que requieren una varianza de latencia menor en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Aprovisionado global

  • Nombre de SKU en el código: GlobalProvisionedManaged

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry. Obtenga más información sobre la retención de datos.

Las implementaciones globales están disponibles en los mismos recursos de Azure AI Foundry que los tipos de implementación no globales. Sin embargo, permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. Las implementaciones globales aprovisionadas proporcionan capacidad reservada de procesamiento de modelos para un alto y predecible rendimiento mediante la infraestructura global de Azure.

Lote global

  • Nombre de SKU en el código: GlobalBatch

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry. Obtenga más información sobre la retención de datos.

Global Batch está diseñado para controlar eficazmente las tareas de procesamiento a gran escala y de alto volumen. Puede procesar grupos asincrónicos de solicitudes con una cuota independiente y un objetivo de entrega de 24 horas, a un costo un 50% menor que Global Standard. Con el procesamiento por lotes, en lugar de enviar una solicitud a la vez, se envía un gran número de solicitudes en un único archivo. Las solicitudes de lotes globales tienen una cuota de tokens en cola independiente, lo que evita cualquier interrupción de sus cargas de trabajo en línea.

Los siguientes son algunos de los principales casos de uso:

  • Procesamiento de datos a gran escala: analice rápidamente conjuntos de datos extensos en paralelo.
  • Generación de contenido: cree grandes volúmenes de texto, como descripciones de productos o artículos.
  • Revisión y resumen de documentos: automatice la revisión y el resumen de documentos largos.
  • Automatización del soporte al cliente: controle numerosas consultas simultáneamente para respuestas más rápidas.
  • Extracción y análisis de datos: extraiga y analice información de grandes cantidades de datos no estructurados.
  • Tareas de procesamiento de lenguaje natural (NLP): realice tareas como análisis de sentimiento o traducción en grandes conjuntos de datos.
  • Marketing y personalización: Generar contenido personalizado y recomendaciones a escala.

Estándar de zona de datos

  • Nombre de SKU en el código: DataZoneStandard

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones estándar de zona de datos están disponibles en el mismo recurso de Azure AI Foundry que todos los demás tipos de implementación de Azure AI Foundry. Sin embargo, permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Data Zone Standard proporciona cuotas predeterminadas más altas que los tipos de implementación basados en geografía de Azure.

Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Para más información, consulte la página cuotas y límites. En el caso de las cargas de trabajo que requieren una varianza de latencia baja en un gran volumen, se recomienda usar las ofertas de implementación aprovisionadas.

Zona de datos aprovisionada

  • Nombre de SKU en el código: DataZoneProvisionedManaged

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones aprovisionadas de zona de datos están disponibles en el mismo recurso de Azure AI Foundry que todos los demás tipos de implementación de Azure AI Foundry. Sin embargo, permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos especificada por Microsoft con la mejor disponibilidad para cada solicitud. Las implementaciones aprovisionadas de zona de datos proporcionan capacidad reservada de procesamiento de modelos para un rendimiento elevado y predecible mediante la infraestructura de Azure dentro de la zona de datos especificada por Microsoft.

Zona de datos para Batch

  • Nombre de SKU en el código: DataZoneBatch

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry dentro de la zona de datos especificada por Microsoft. Obtenga más información sobre la retención de datos.

Las implementaciones de Batch de zona de datos proporcionan la misma funcionalidad que las implementaciones de Batch global. Sin embargo, permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico solo a centros de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud.

Estándar

  • Nombre de SKU en el código: Standard

Las implementaciones estándar proporcionan un modelo de facturación de pago por llamada en el modelo elegido. Este modelo puede ser una manera rápida de empezar, ya que solo paga por lo que consume. Los modelos disponibles en cada región y rendimiento pueden estar limitados.

Las implementaciones estándar están optimizadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia.

Aprovisionado regional

  • Nombre de SKU en el código: ProvisionedManaged

Las implementaciones regionales aprovisionadas permiten especificar la cantidad de rendimiento que necesita en una implementación. A continuación, el servicio asigna la capacidad de procesamiento del modelo necesaria y garantiza que está listo para el usuario. El rendimiento se define en términos de unidades de rendimiento aprovisionadas, que es una forma normalizada de representar el rendimiento de la implementación. Cada par de versión de modelo requiere diferentes cantidades de unidades de rendimiento aprovisionadas para implementar y proporciona diferentes cantidades de rendimiento por unidad de rendimiento aprovisionada. Obtenga más información en el artículo sobre los conceptos de rendimiento aprovisionado.

Deshabilitación del acceso a implementaciones globales en la suscripción

Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a escala. A través de su panel de cumplimiento, proporciona una vista agregada para evaluar el estado general del entorno, con la capacidad de explorar en profundidad la granularidad por recurso y por directiva. También ayuda a que sus recursos cumplan las normativas mediante la remediación masiva de los recursos existentes y la remediación automática de los nuevos recursos. Obtenga más información sobre Azure Policy y controles integrados específicos para los servicios de IA.

Puede usar la siguiente directiva para deshabilitar el acceso a cualquier tipo de implementación de Azure AI Foundry. Para deshabilitar el acceso a un tipo de implementación específico, reemplace por GlobalStandard el nombre de la SKU para el tipo de implementación al que desea deshabilitar el acceso.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Desarrollador (para modelos ajustados de manera precisa)

  • Nombre de SKU en el código: DeveloperTier

Importante

Los datos almacenados en reposo permanecen en la geografía de Azure designada. Sin embargo, los datos se pueden procesar para la inferencia en cualquier ubicación de Azure AI Foundry. Obtenga más información sobre la retención de datos.

Los modelos ajustados soportan una Developer implementación diseñada para facilitar la evaluación de modelos personalizados. No ofrece garantías de residencia de datos ni un Acuerdo de Nivel de Servicio. Para más información sobre el uso del Developer tipo de implementación, consulte la guía de ajuste.

Implementación de modelos

Captura de pantalla que muestra el cuadro de diálogo de implementación de modelos en el portal de Azure AI Foundry con un tipo de implementación resaltado.

Para obtener información sobre cómo crear recursos e implementar modelos, consulte la Guía de creación de recursos.