Tipos de implementación de Azure OpenAI

Artigo
07/26/2024

Azure OpenAI proporciona a los clientes opciones en la estructura de hospedaje que se ajustan a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementación: estándar y aprovisionada. Estándar se ofrece con una opción de implementación global, enrutando el tráfico globalmente para proporcionar un mayor rendimiento. Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Como parte del diseño de la solución, deberá tomar dos decisiones clave:

Las necesidades de residencia de datos: recursos globales frente a regionales
El volumen de llamadas: estándar frente a aprovisionado

Tipos de implementación globales frente a regionales

En el caso de las implementaciones estándar, puede elegir entre dos tipos de configuraciones dentro del recurso: global o regional. El estándar global es el punto de partida recomendado para el desarrollo y la experimentación. Las implementaciones globales aprovechan la infraestructura global de Azure, enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Con las implementaciones globales hay mayores límites de rendimiento iniciales, aunque la latencia puede variar en niveles de uso elevados. En el caso de los clientes que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Nuestras implementaciones globales serán la primera ubicación para todos los nuevos modelos y características. Los clientes con requisitos de rendimiento muy grandes deben tener en cuenta nuestra oferta de implementación aprovisionada.

Tipos de implementación

Azure OpenAI ofrece tres tipos de implementaciones. Estos proporcionan un nivel variado de funcionalidades que proporcionan ventajas y desventajas: rendimiento, acuerdos de nivel de servicio y precio. A continuación se muestra un resumen de las opciones seguidas de una descripción más detallada de cada una.

Oferta	Estándar global	Estándar	aprovisionado
Más adecuado para	Aplicaciones que no requieren residencia de datos. Lugar de inicio recomendado para los clientes.	Para los clientes con requisitos de residencia de datos. Optimizado para un volumen bajo a medio.	Puntuación en tiempo real para un gran volumen coherente. Incluye los mayores compromisos y límites.
Funcionamiento	El tráfico se puede enrutar a cualquier parte del mundo
Introducción	Implementación de modelo	Implementación de modelo	Incorporación aprovisionada
Costee	Precios de implementación global	Precios regionales	Puede experimentar ahorros de costos para un uso coherente
Resultado	Acceso sencillo a todos los nuevos modelos con los límites de pago por llamada predeterminados más altos. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia	Acceso sencillo con Acuerdo de Nivel de Servicio en la disponibilidad. Optimizado para cargas de trabajo de bajo a medio volumen con alta ráfaga. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.	Acceso regional con un rendimiento muy alto y predecible. Determinación del rendimiento por PTU mediante la calculadora de capacidad de proporcionada
Lo que no se obtiene	❌Garantía de procesamiento de datos Los datos pueden procesarse fuera de la geografía de Azure del recurso, pero el almacenamiento de datos permanece en su geografía de Azure. Más información sobre la residencia de datos	❌Gran volumen con baja latencia coherente	❌Flexibilidad de pago por llamada
Latencia por llamada	Optimizado para llamadas en tiempo real y uso de volumen bajo a medio. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia. Umbral establecido por modelo	Optimizado para llamadas en tiempo real y uso de volumen bajo a medio. Los clientes con un uso elevado de volumen pueden ver una mayor variabilidad de latencia. Umbral establecido por modelo	Optimizado para tiempo real.
Nombre de Sku en de código	`GlobalStandard`	`Standard`	`ProvisionedManaged`
Modelo de facturación	Pago por token	Pago por token	Compromisos mensuales

aprovisionado

Las implementaciones aprovisionadas permiten especificar la cantidad de rendimiento que necesita en una implementación. A continuación, el servicio asigna la capacidad de procesamiento del modelo necesaria y garantiza que está listo para el usuario. El rendimiento se define en términos de unidades de procesamiento aprovisionadas (PTU), que es una forma normalizada de representar una cantidad de rendimiento para una implementación. Cada par de modelo y versión requiere diferentes cantidades de PTU para su implementación y aporta diferentes cantidades de rendimiento por PTU. Obtenga más información en el artículo Conceptos de rendimiento aprovisionado.

Estándar

Las implementaciones estándar proporcionan un modelo de facturación de pago por llamada en el modelo elegido. Proporciona la manera más rápida de empezar a trabajar, ya que solo paga por lo que consume. Los modelos disponibles en cada región, así como el rendimiento pueden ser limitados.

Las implementaciones estándar están optimizadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia.

Estándar global

Importante

Los datos pueden procesarse fuera de la geografía de Azure del recurso, pero el almacenamiento de datos permanece en su geografía de Azure. Obtenga más información sobre la retención de datos.

Las implementaciones globales están disponibles en los mismos recursos de Azure OpenAI que las ofertas no globales, pero permiten aprovechar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos con la mejor disponibilidad para cada solicitud. La estándar global proporcionará la cuota predeterminada más alta para los nuevos modelos y elimina la necesidad de equilibrar la carga entre varios recursos.

El tipo de implementación está optimizado para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Más información en la página de cuotas.

En el caso de los clientes que requieren la varianza de latencia más baja en el uso de cargas de trabajo grandes, se recomienda comprar el rendimiento aprovisionado.

Cómo deshabilitar el acceso a implementaciones globales en su suscripción

Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a escala. Mediante su panel de cumplimiento, proporciona una vista agregada para evaluar el estado general del entorno, con la posibilidad de explorar en profundidad hasta el nivel de recurso y directiva. También ayuda al cumplimiento de los recursos gracias a la corrección masiva de los recursos existentes y la corrección automática de nuevos recursos. Obtenga más información sobre Azure Policy y controles integrados específicos para los servicios de inteligencia artificial.

Puede usar la siguiente directiva para deshabilitar el acceso a las implementaciones estándar globales de Azure OpenAI.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implementación de modelos

Para obtener información sobre cómo crear recursos e implementar modelos, consulte la guía de creación de recursos.

Compartir por