Incorporación de unidades de procesamiento aprovisionado

Este artículo le guía a través del proceso de incorporación a Unidades de procesamiento aprovisionado (PTU). Una vez que haya completado la incorporación inicial, le recomendamos que consulte la guía de introducción de PTU.

Nota:

Las unidades de procesamiento aprovisionadas (PTU) son diferentes de la cuota estándar en Azure OpenAI y no están disponibles de forma predeterminada. Para más información sobre esta oferta, póngase en contacto con el equipo de su cuenta Microsoft.

Unidades de procesamiento aprovisionadas (PTU)

Debe considerar la posibilidad de cambiar del rendimiento de pago por uso al rendimiento aprovisionado cuando tenga requisitos de rendimiento predecibles y bien definidos. Normalmente, esto ocurre cuando la aplicación está lista para producción o ya se ha implementado en producción y existe una comprensión del tráfico esperado. Esto permitirá a los usuarios predecir con precisión la capacidad necesaria y evitar una facturación inesperada.

Escenarios típicos de PTU

  • Una aplicación que está lista para producción o en producción.
  • La aplicación tiene expectativas de uso y capacidad predecibles.
  • La aplicación tiene requisitos confidenciales en tiempo real o de latencia.

Nota:

En los casos de uso de llamadas a funciones y agentes, el uso de tokens puede ser variable. Debe comprender el uso esperado de tokens por minuto (TPM) en detalle antes de migrar las cargas de trabajo a PTU.

Dimensionamiento de tamaño y estimación: solo administrado aprovisionado

Determinar la cantidad adecuada de procesamiento aprovisionado, o PTU, es un paso esencial para optimizar el procesamiento y el costo. En esta sección se describe cómo usar la herramienta de planeamiento de capacidad de Azure OpenAI. La herramienta proporciona una estimación de la PTU necesaria para satisfacer las necesidades de la carga de trabajo.

Estimación del procesamiento aprovisionado y el costo

Para obtener una estimación rápida de su carga de trabajo, abra el planificador de capacidad en Azure OpenAI Studio. El planificador de capacidad está bajo Administración>Cuotas>Aprovisionado.

La opción Aprovisionado y el planificador de capacidad solo están disponibles en determinadas regiones dentro del panel de Cuota, si no ve esta opción, establecer la región de cuota en Centro de Suecia hará que esta opción esté disponible. Escriba los parámetros siguientes en función de la carga de trabajo.

Entrada Descripción
Modelo Modelo de OpenAI que piensa usar. Por ejemplo: GPT-4
Versión Versión del modelo que planea usar, por ejemplo, 0614
Tokens de solicitud Número de tokens en la solicitud de cada llamada
Tokens de generación Número de tokens generados por el modelo en cada llamada
Llamadas máximas por minuto Carga simultánea máxima en el punto de conexión medido en llamadas por minuto

Después de rellenar los detalles necesarios, seleccione Calcular para ver la cantidad de PTU sugerida para su escenario.

Captura de pantalla de la página de inicio de Azure OpenAI Studio.

Nota:

El planificador de capacidad es una estimación basada en criterios de entrada simples. La manera más precisa de determinar la capacidad es realizar pruebas comparativas de una implementación con una carga de trabajo representacional para su caso de uso.

Descripción del modelo de compra de procesamiento aprovisionado

A diferencia de los servicios de Azure en los que se le cobra según el uso, la característica procesamiento aprovisionado de Azure OpenAI se adquiere como un compromiso mensual renovable. Este compromiso se cobra a su suscripción tras la creación y en cada renovación mensual. Al incorporar al procesamiento aprovisionado, debe crear un compromiso en cada recurso de Azure OpenAI en el que quiera crear una implementación aprovisionada. Las PTU que compra de esta manera están disponibles para su uso al crear implementaciones en esos recursos.

El número total de PTU que puede comprar a través de compromisos se limita a la cantidad de cuota de procesamiento aprovisionado que se asigna a la suscripción. En la tabla siguiente se comparan otras características de la cuota de procesamiento aprovisionado (PTU) y los compromisos de procesamiento aprovisionado.

Tema Cuota Compromisos
Propósito Concede permiso para crear implementaciones aprovisionadas y proporciona el límite superior de la capacidad que se puede usar Vehículo de compra para capacidad de procesamiento aprovisionado
Período de duración La cuota se puede quitar de la suscripción si no se compra a través de un compromiso en un plazo de cinco días a partir de la concesión El plazo mínimo es de un mes, con un comportamiento de renovación automática seleccionable por el cliente. Un compromiso no se puede cancelar y no se puede mover a un nuevo recurso mientras está activo
Ámbito La cuota es específica de una suscripción y región, y se comparte en todos los recursos de Azure OpenAI Los compromisos son un atributo de un recurso de Azure OpenAI y se limitan a las implementaciones dentro de ese recurso. Una suscripción puede contener tantos compromisos activos como recursos haya.
Granularidad La cuota se concede de forma específica a una familia de modelos (por ejemplo, GPT-4), pero se puede compartir entre versiones de modelos dentro de la familia Los compromisos no son específicos del modelo ni de la versión. Por ejemplo, un compromiso de 1 000 PTU de un recurso puede cubrir implementaciones de GPT-4 y GPT-35-Turbo
Garantía de capacidad Tener cuota no garantiza que la capacidad esté disponible al crear la implementación La disponibilidad de la capacidad para cubrir las PTU confirmadas se garantiza siempre que el compromiso esté activo.
Aumentos y disminuciones La nueva cuota se puede solicitar y aprobar en cualquier momento, independientemente de las fechas de renovación del compromiso El número de PTU cubiertas por un compromiso se puede aumentar en cualquier momento, pero no se puede reducir excepto en el momento de la renovación.

La cuota y los compromisos funcionan conjuntamente para controlar la creación de implementaciones dentro de las suscripciones. Para crear una implementación aprovisionada, se deben cumplir dos criterios:

  • La cuota debe estar disponible para el modelo deseado dentro de la región y la suscripción deseadas. Esto significa que no puede superar el límite de suscripción o región para el modelo.
  • Las PTU confirmadas deben estar disponibles en el recurso donde se crea la implementación. (La capacidad que asigne a la implementación es de pago).

Propiedades de compromiso y modelo de carga

Un compromiso incluye varias propiedades.

Propiedad Descripción Cuándo se establece
Recurso de Azure OpenAI El recurso que hospeda el compromiso Creación de compromisos
PTU confirmadas Número de PTU cubiertas por el compromiso. Inicialmente establecido en la creación del compromiso, se puede aumentar en cualquier momento, pero no disminuir.
Término Término del compromiso. Un compromiso expira un mes a partir de su fecha de creación. La directiva de renovación define lo que sucede a continuación. Creación de compromisos
Fecha de expiración Fecha de expiración del compromiso. Esta hora de expiración es la medianoche (UTC). Inicialmente, 30 días a partir de la creación. Sin embargo, la fecha de expiración cambia si se renueva el compromiso.
Directiva de renovación Hay tres opciones para qué hacer tras la expiración:

- Renovar automáticamente: comienza un nuevo plazo de compromiso durante otros 30 días en el número actual de PTU
- Renovar automáticamente con diferentes configuraciones: esta configuración es la misma que Renovar automáticamente, excepto que se puede disminuir el número de PTU confirmadas tras la renovación
- No renovar automáticamente: tras la expiración, el compromiso finaliza y no se renueva.
Inicialmente se establece en la creación del compromiso y se puede cambiar en cualquier momento.

Cargos de compromiso

Los compromisos de procesamiento aprovisionado generan cargos en la suscripción de Azure en los momentos siguientes:

  • En la creación del compromiso. El cargo se calcula según la tasa de PTU mensual actual y el número de PTU confirmadas. Recibirá un solo cargo por adelantado en la factura.

  • En la renovación del compromiso. Si la directiva de renovación se establece en Renovar automáticamente, se genera un nuevo cargo mensual en función de las PTU confirmadas en el nuevo término. Este cargo aparece como un único cargo por adelantado en la factura.

  • Cuando se agregan nuevas PTU a un compromiso existente. El cargo se calcula en función del número de PTU agregadas al compromiso, prorrateado cada hora hasta el final del plazo de compromiso existente. Por ejemplo, si se agregan 300 PTU a un compromiso existente de 900 PTU exactamente a mitad de su período, hay un cargo en el momento de la adición para el equivalente de 150 PTU (300 PTUs prorrateado a la fecha de expiración del compromiso). Si se renueva el compromiso, el cargo del mes siguiente será para el nuevo total de 1 200 PTU.

Siempre que el número de PTU implementadas en un recurso esté cubierto por el compromiso del recurso, solo verá los cargos del compromiso. Sin embargo, si el número de PTU implementadas en un recurso es mayor que las PTU confirmadas del recurso, el exceso de PTU se cobrará como uso por encima del límite por hora. Normalmente, la única forma en que se producirá este uso por encima del límite es si expira un compromiso o se reduce en su renovación mientras el recurso contiene implementaciones. Por ejemplo, si se permite que un compromiso de 300 PTU expire en un recurso que tenga implementadas 300 PTU, las PTU implementadas ya no estarán cubiertas por ningún compromiso. Una vez alcanzada la fecha de expiración, se cobrará a la suscripción una tarifa por exceso de horas basada en las 300 PTU sobrantes.

La tarifa por hora es mayor que la tasa de compromiso mensual y los cargos superan la tarifa mensual en unos pocos días. Hay dos maneras de finalizar los cargos por encima del límite por hora:

  • Elimine o reduzca verticalmente las implementaciones para que no usen más PTU de las confirmadas.
  • Crear un nuevo compromiso en el recurso para cubrir las PTU implementadas.

Compra y administración de compromisos

Planificación de sus compromisos

Tras recibir la confirmación de que la cuota de unidad de procesamiento aprovisionado (PTU) está asignada a una suscripción, debe crear compromisos en los recursos de destino (o ampliar los compromisos existentes) para que la cuota se pueda usar para las implementaciones.

Antes de crear compromisos, planee cómo se usarán las implementaciones aprovisionadas y qué recursos de Azure OpenAI los hospedarán. Los compromisos tienen un plazo mínimo de un mes y no se pueden reducir en tamaño hasta el final del plazo. Tampoco se pueden mover a nuevos recursos una vez creados. Por último, la suma de las PTU confirmadas no puede ser mayor que la cuota: las PTU confirmadas en un recurso ya no están disponibles para confirmar en un recurso diferente hasta que expire el compromiso. Tener un plan claro sobre qué recursos se usarán para las implementaciones aprovisionadas y la capacidad que pretende aplicar a ellas (durante al menos un mes) ayudará a garantizar una experiencia óptima con la configuración del procesamiento aprovisionado.

Por ejemplo:

  • No cree un compromiso ni una implementación en un recurso temporal para la validación. Se verá obligado a usar ese recurso durante al menos un mes. En su lugar, si el plan es usar en última instancia las PTU en un recurso de producción, cree la implementación de compromiso y prueba en ese recurso directamente desde el principio.

  • Calcule el número de PTU que debe confirmar en un recurso en función del número, el modelo y el tamaño de las implementaciones que pretende crear, teniendo en cuenta el número mínimo de PTU que requiere cada modelo para crear una implementación.

    • Ejemplo 1: GPT-4-32K requiere un mínimo de 200 PTU para implementar. Si crea un compromiso de solo 100 PTU en un recurso, no tendrá suficientes PTU confirmadas para implementar GPT-4-32K allí

    • Ejemplo 2: si necesita crear varias implementaciones en un recurso, sume las PTU necesarias para cada implementación. Las implementaciones de hospedaje de recursos de producción para 300 PTU de GPT-4 y 500 PTU de GPT-4-32K requerirán un compromiso de al menos 800 PTU para cubrir ambas implementaciones.

  • Distribuya o consolide las PTU según sea necesario. Por ejemplo, la cuota total de 1 000 PTU se puede distribuir entre los recursos según sea necesario para admitir las implementaciones. Podría confirmarse en un único recurso para admitir una o varias implementaciones que agreguen hasta 1 000 PTU o distribuirse entre varios recursos (por ejemplo, un recurso de desarrollo y un recurso de producción) siempre que el número total de PTU confirmadas sea menor o igual que la cuota de 1 000.

  • Tenga en cuenta los requisitos operativos del plan. Por ejemplo:

    • Convenciones de nomenclatura de recursos necesarias para la organización
    • Directivas de continuidad empresarial que requieren varias implementaciones de un modelo por región, quizás en diferentes recursos de Azure OpenAI

Administración de compromisos de rendimiento aprovisionado

Los compromisos de rendimiento aprovisionados se crean y administran desde la vista Administrar compromisos en Azure OpenAI Studio. Para ir a esta vista, seleccione Administrar compromisos en el panel Cuota:

Captura de pantalla de la interfaz de usuario de compra de compromiso con notificaciones.

En la vista Administrar compromisos, puede hacer varias cosas:

  • Compre nuevos compromisos o edite los compromisos existentes.
  • Supervise todos los compromisos de la suscripción.
  • Identifique y tome medidas sobre los compromisos que podrían provocar una facturación inesperada.

Las secciones siguientes le llevarán a través de estas tareas.

Compra de un compromiso de rendimiento aprovisionado

Con el plan de compromiso listo, el siguiente paso es crear los compromisos. Los compromisos se crean manualmente a través de Azure OpenAI Studio y requieren que el usuario que los crea tenga el rol de Colaborador o de Colaborador de Cognitive Services en el nivel de suscripción.

Para cada nuevo compromiso que necesite crear, siga estos pasos:

  1. Inicie el cuadro de diálogo de compra de rendimiento aprovisionado seleccionando Cuotas>Aprovisionado>Administrar compromisos.

Captura de pantalla del cuadro de diálogo de compra.

  1. Seleccione Comprar compromiso.

  2. Seleccione el recurso de Azure OpenAI y compre el compromiso. Verá los recursos divididos en recursos con compromisos existentes, que puede editar, y recursos que actualmente no tienen un compromiso.

Configuración Notas
Selección de un recurso Elija el recurso donde creará la implementación aprovisionada. Una vez que haya adquirido el compromiso, no podrá usar las PTU en otro recurso hasta que expire el compromiso actual.
Seleccionar un tipo de compromiso Seleccione Aprovisionado. (Aprovisionado es equivalente a Administrado aprovisionado)
Cuota aprovisionada actual no confirmada Número de PTU disponibles actualmente para que se confirmen en este recurso.
Cantidad a confirmar (PTU) Elija el número de PTU a las que se va a comprometer. Este número se puede aumentar durante el período de compromiso, pero no se puede reducir. Escriba los valores en incrementos de 50 para el tipo de compromiso Aprovisionado.
Nivel de compromiso para el período actual El período de compromiso se establece en un mes.
Configuración de renovación Renovación automática con las PTU actuales
Renovación automática con PTU inferiores
No renovar automáticamente
  1. Seleccione Comprar. Se mostrará un cuadro de diálogo de confirmación. Después de confirmar, las PTU se confirmarán y puede usarlas para crear una implementación aprovisionada. |

Captura de pantalla de la interfaz de usuario de compra de compromiso.

Importante

Se factura un nuevo compromiso por adelantado durante todo el plazo. Si la configuración de renovación se establece en renovación automática, se le facturará de nuevo en cada fecha de renovación en función de la configuración de renovación.

Edición de un compromiso de rendimiento aprovisionado existente

En la vista Administrar compromisos, también puede editar un compromiso existente. Hay dos tipos de cambios que puede realizar en un compromiso existente:

  • Puede agregar PTU al compromiso.
  • Puede cambiar la configuración de renovación.

Para editar un compromiso, seleccione el compromiso actual que desea editar y, a continuación, seleccione Editar compromiso.

Adición de unidades de procesamiento aprovisionado a los compromisos existentes

La adición de PTU a un compromiso existente le permitirá crear implementaciones más grandes o más numerosas dentro del recurso. Puede hacer esto en cualquier momento durante el período de su compromiso.

Captura de pantalla de la interfaz de usuario de compra de compromiso con un aumento en la cantidad de valor de confirmación.

Importante

Al agregar PTU a un compromiso, se facturarán inmediatamente, en una cantidad prorrateada desde la fecha actual hasta el final del plazo del compromiso existente. La adición de PTU no restablece el término del compromiso.

Cambio de la configuración de renovación

La configuración de renovación del compromiso se puede cambiar en cualquier momento antes de la fecha de expiración del compromiso. Las razones por las que es posible que quiera cambiar la configuración de renovación incluyen finalizar el uso del rendimiento aprovisionado estableciendo el compromiso para que no se renueve automáticamente o reducir el uso del rendimiento aprovisionado reduciendo el número de PTU que se confirmarán en el próximo período.

Importante

Si permite que un compromiso expire o disminuya en tamaño, de modo que las implementaciones en el recurso requieran más PTU de las que tiene en el compromiso del recurso, recibirá cargos por encima del límite por hora por cualquier cantidad de PTU excedente. Por ejemplo, un recurso que tenga implementaciones que sumen en total 500 PTU y un compromiso de 300 PTU generará cargos por encima del límite por hora para 200 PTU.

Supervisar los compromisos y evitar facturaciones inesperadas

El panel Administrar compromisos proporciona información general de toda la suscripción de todos los recursos con compromisos y uso de PTU dentro de una suscripción de Azure determinada. La siguiente información es de especial importancia:

  • PTU confirmadas, implementadas y uso: estas cifras proporcionan los tamaños de los compromisos y cuánto usan las implementaciones. Maximice su inversión mediante el uso de todas sus PTU confirmadas.
  • Directiva y fecha de expiración: la fecha de expiración y la directiva le indican cuándo expirará un compromiso y qué ocurrirá cuando lo haga. Un compromiso establecido en renovación automática generará un evento de facturación en la fecha de renovación. Para los compromisos que expiran, asegúrese de eliminar las implementaciones de estos recursos antes de la fecha de expiración para evitar la facturación por encima del límite por hora de la configuración de renovación actual para un compromiso.
  • Notificaciones: alertas relacionadas con condiciones importantes, como compromisos no utilizados, y configuraciones que podrían dar lugar a un uso por encima del límite de facturación. Los usos por encima del límite de facturación pueden deberse a situaciones como cuando un compromiso ha expirado y las implementaciones siguen presentes, pero han cambiado a facturación por hora.

Escenarios comunes de administración de compromisos

Interrumpir el uso del procesamiento aprovisionado

Para finalizar el uso del rendimiento aprovisionado y evitar cargos por encima del límite por hora después de la expiración del compromiso, y detener los cargos después de que expiren los compromisos actuales, se deben realizar dos pasos:

  1. Establezca la directiva de renovación en todos los compromisos en No renovar automáticamente.
  2. Elimine las implementaciones aprovisionadas mediante la cuota.

Traslado de un compromiso o implementación a un nuevo recurso en la misma suscripción o región

En Azure OpenAI Studio, no es posible mover directamente una implementación o un compromiso a un nuevo recurso. En su lugar, es necesario crear una nueva implementación en el recurso de destino y trasladar el tráfico al mismo. Tendrá que haber un compromiso adquirido en el nuevo recurso para lograrlo. Dado que los compromisos se cobran por adelantado para un periodo de 30 días, es necesario hacer coincidir este movimiento con la expiración del compromiso original para minimizar la superposición con el nuevo compromiso y la "doble facturación" durante la superposición.

Hay dos enfoques que se pueden adoptar para implementar esta transición.

Opción 1: Cambio sin superposición

Esta opción requiere un tiempo de inactividad, pero no requiere cuota adicional y no genera ningún costo adicional.

Pasos Notas
Establecimiento de la directiva de renovación en el compromiso existente para expirar Esto impedirá que el compromiso se renueve y genere cargos adicionales
Antes de la expiración del compromiso existente, elimine su implementación El tiempo de inactividad comenzará en este momento y durará hasta que se cree la nueva implementación y se mueva el tráfico. Minimizará la duración programando la eliminación para que se produzca lo más cerca posible de la fecha/hora de expiración.
Después de la expiración del compromiso existente, cree el compromiso en el nuevo recurso Minimice el tiempo de inactividad ejecutando esto y el siguiente paso lo antes posible después de la expiración.
Creación de la implementación en el nuevo recurso y traslado del tráfico al mismo

Opción 2: Cambio superpuesto

Esta opción no tiene tiempo de inactividad, ya que tanto las implementaciones existentes como las nuevas funcionan al mismo tiempo. Esto requiere tener cuota disponible para crear la nueva implementación y generará costos adicionales durante la duración de las implementaciones superpuestas.

Pasos Notas
Establecimiento de la directiva de renovación en el compromiso existente para expirar Esto impide que el compromiso se renueve y genere cargos adicionales.
Antes de la expiración del compromiso existente:
1. Cree el compromiso en el nuevo recurso.
2. Cree la nueva implementación.
3. Cambie el tráfico
4. Elimine la implementación existente
Asegúrese de dejar tiempo suficiente para realizar todos los pasos antes de que expire el compromiso existente, de lo contrario se generarán cargos por uso por encima del límite (consulte la siguiente sección) para las opciones.

Si el último paso tarda más de lo previsto y va a terminar después de que expire el compromiso existente, existen tres opciones para minimizar los cargos por uso por encima del límite.

  • Tome tiempo de inactividad: elimine la implementación original y complete el traslado.
  • Pagar por uso por encima del límite: mantenga la implementación original y pague cada hora hasta que haya desactivado y eliminado el tráfico.
  • Restablezca el compromiso original para renovarse una vez más. Esto le dará tiempo para completar el traslado con un costo conocido.

Tanto el pago por un uso por encima del límite como el restablecimiento del compromiso original generarán cargos más allá de la fecha de expiración original. Pagar cargos por uso por encima del límite puede ser más barato que un nuevo compromiso de un mes si solo necesita un día o dos para completar el traslado. Compare los costos de ambas opciones para encontrar el enfoque de menor costo.

Traslado de la implementación a una nueva región o suscripción

Los mismos enfoques se aplican al mover el compromiso y la implementación dentro de la región, salvo que, en todos los casos, se requerirá tener cuota disponible en la nueva ubicación.

Visualización y edición de un recurso existente

En Azure OpenAI Studio, seleccione Cuota>Aprovisionado>Administrar compromisos y seleccione un recurso con un compromiso existente para verlo o cambiarlo.

Pasos siguientes