Incorporación de unidades de procesamiento aprovisionado

Article
09/03/2024

Este artículo le guía a través del proceso de incorporación a Unidades de procesamiento aprovisionado (PTU). Una vez que haya completado la incorporación inicial, le recomendamos que consulte la guía de introducción de PTU.

Unidades de procesamiento aprovisionadas (PTU)

Debe considerar la posibilidad de cambiar del rendimiento de pago por uso al rendimiento aprovisionado cuando tenga requisitos de rendimiento predecibles y bien definidos. Normalmente, esto ocurre cuando la aplicación está lista para producción o ya se ha implementado en producción y existe una comprensión del tráfico esperado. Esto permite a los usuarios predecir con precisión la capacidad necesaria y evitar una facturación inesperada.

Escenarios típicos de PTU

Una aplicación que está lista para producción o en producción.
Una aplicación que tiene expectativas de uso y capacidad predecibles.
Una aplicación tiene requisitos confidenciales en tiempo real o de latencia.

Nota:

En los casos de uso de llamadas a funciones y agentes, el uso de tokens puede ser variable. Debe comprender el uso esperado de tokens por minuto (TPM) en detalle antes de migrar cargas de trabajo a PTU.

Dimensionamiento de tamaño y estimación: solo administrado aprovisionado

Determinar la cantidad adecuada de procesamiento aprovisionado, o PTU, es un paso esencial para optimizar el procesamiento y el costo. En esta sección se describe cómo usar la herramienta de planeamiento de capacidad de Azure OpenAI. La herramienta proporciona una estimación de la PTU necesaria para satisfacer las necesidades de la carga de trabajo.

Estimación del procesamiento aprovisionado y el costo

Para obtener una estimación rápida de su carga de trabajo, abra el planificador de capacidad en Azure OpenAI Studio. El planificador de capacidad está bajo Administración>Cuotas>Aprovisionado.

La opción Aprovisionado y el planificador de capacidad solo están disponibles en determinadas regiones dentro del panel de Cuota, si no ve esta opción, establecer la región de cuota en Centro de Suecia hará que esta opción esté disponible. Escriba los parámetros siguientes en función de la carga de trabajo.

Entrada	Descripción
Modelo	Modelo de OpenAI que piensa usar. Por ejemplo: GPT-4
Versión	Versión del modelo que planea usar, por ejemplo, 0614
Llamadas máximas por minuto	Número de llamadas por minuto que se espera que se envíen al modelo
Tokens en la llamada de aviso	Número de tokens en la solicitud de cada llamada al modelo. Las llamadas con mensajes más grandes usan más de la implementación de PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación.
Tokens en la respuesta del modelo	Número de tokens generados de cada llamada al modelo. Las llamadas con tamaños de generación más grandes usan más de la implementación de PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación.

Después de rellenar los detalles necesarios, seleccione el botón Calcular en la columna de salida.

Los valores de la columna de salida son el valor estimado de las unidades de PTU necesarias para las entradas de carga de trabajo proporcionadas. El primer valor de salida representa las unidades de PTU estimadas necesarias para la carga de trabajo, redondeadas al incremento de escala de PTU más cercano. El segundo valor de salida representa las unidades de PTU estimadas sin procesar necesarias para la carga de trabajo. Los totales del token se calculan mediante la siguiente ecuación: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Nota:

La calculadora de capacidad proporciona una estimación basada en criterios de entrada simples. La manera más precisa de determinar la capacidad es realizar pruebas comparativas de una implementación con una carga de trabajo representacional para su caso de uso.

Descripción del modelo de compra de procesamiento aprovisionado

Azure OpenAI aprovisionado se adquiere a petición cada hora en función del número de PTU implementadas, con un descuento a plazo considerable disponible a través de la compra de las reservas de Azure.

El modelo por hora es útil para las necesidades de implementación a corto plazo, como validar nuevos modelos o adquirir capacidad para un hackatón.  Sin embargo, los descuentos proporcionados por las reservas de Azure para Azure OpenAI aprovisionado son considerables y la mayoría de los clientes con que lo usan habitualmente a largo plazo encontrarán un modelo reservado para ser una propuesta de valor mejor.

Nota:

Los clientes de Azure OpenAI aprovisionado incorporados antes de la actualización de autoservicio de agosto usan un modelo de compra denominado Modelo de compromiso. Estos clientes pueden seguir usando este modelo de compra anterior junto con el modelo de compra por hora o reserva. El modelo de compromiso no está disponible para los nuevos clientes. Para más información sobre el modelo de compra de compromiso y las opciones para la coexistencia y la migración, consulte la actualización de agosto de Azure OpenAI aprovisionado.

Uso por hora

Las implementaciones de rendimiento aprovisionadas se cobran con una tarifa por hora ($/PTU/hr) sobre el número de PTU que se han implementado.  Por ejemplo, una implementación de 300 PTU se cobrará 300 veces el precio por hora.  Todos los precios de Azure OpenAI están disponibles en la Calculadora de precios de Azure.

Si existe una implementación durante una hora parcial, recibirá un cargo prorrateado en función del número de minutos que se implementó durante la hora.  Por ejemplo, una implementación que existe durante 15 minutos durante una hora recibirá 1/4 del cargo por hora. 

Si se cambia el tamaño de la implementación, los costes de la implementación se ajustarán para que coincidan con el nuevo número de PTUs.

Pagar por implementaciones aprovisionadas cada hora es ideal para escenarios de implementación a corto plazo.  Por ejemplo: Pruebas comparativas de calidad y rendimiento de nuevos modelos, o aumento temporal de la capacidad de PTU para cubrir un evento como un hackatón. 

Los clientes que requieren el uso a largo plazo de las implementaciones aprovisionadas, sin embargo, pueden pagar significativamente menos al mes mediante la compra de un descuento a largo plazo a través de una reserva de Azure, como se describe en la sección siguiente.

Nota:

No se recomienda escalar las implementaciones de producción de acuerdo con el tráfico entrante y pagarlas exclusivamente cada hora. Hay dos motivos para ello:

El ahorro de costes que se consigue mediante la compra de una reserva de Azure para Azure OpenAI aprovisionado es significativo y, en muchos casos, será menos costoso mantener un tamaño de implementación para el volumen de producción completo pagado por medio de una reserva de lo que sería escalar la implementación con tráfico entrante.
Tener cuota aprovisionada (PTU) sin usar no garantiza que esa capacidad estará disponible para admitir el aumento del tamaño de la implementación cuando sea necesario. La cuota limita el número máximo de PTU que se pueden implementar, pero no es una garantía de capacidad. Es posible que la capacidad aprovisionada para cada región y modal cambie dinámicamente a lo largo del día y no esté disponible cuando sea necesario. Como resultado, se recomienda mantener una implementación permanente para cubrir las necesidades de tráfico (pagadas a través de una reserva).

Reservas de Azure para Azure OpenAI aprovisionado

Los descuentos sobre el precio de uso por hora se pueden obtener mediante la compra de una reserva de Azure para Azure OpenAI aprovisionado. Una reserva de Azure es un mecanismo de descuento a términos compartido por muchos productos de Azure. Por ejemplo, Proceso y Cosmos DB. Para Azure OpenAI aprovisionado, la reserva proporciona un descuento para confirmar el pago del número fijo de PTUs durante un período de un mes o de un año. 

Las reservas de Azure se compran a través de Azure Portal, no con el vínculo de Azure OpenAI Studio al portal de reservas de Azure.
Las reservas se adquieren de forma regional y pueden tener un ámbito flexible para cubrir el uso de un grupo de implementaciones. El ámbitos de reserva incluye:
- Grupos de recursos individual o suscripciones
- Un grupo de suscripciones a un grupo de administración
- Todas las suscripciones en una cuenta de facturación
Se pueden comprar nuevas reservas para cubrir el mismo ámbito que las reservas existentes, para permitir el descuento de las nuevas implementaciones aprovisionadas. El ámbito de las reservas existentes también se puede actualizar en cualquier momento sin penalización, por ejemplo, para cubrir una nueva suscripción.
Las reservas se pueden cancelar después de la compra, pero los créditos están limitados.
Si el tamaño de las implementaciones aprovisionadas dentro del ámbito de una reserva supera la cantidad de la reserva, el exceso se cobra según la tarifa horaria. Por ejemplo, si las implementaciones que ascienden a 250 PTU existen dentro del ámbito de una reserva de 200 PTU, se cobrarán 50 PTUs cada hora hasta que los tamaños de implementación se reduzcan a 200 PTU o se cree una nueva reserva para cubrir los 50 restantes.
Las reservas garantizan un precio con descuento para el período seleccionado.  No reservan capacidad en el servicio ni garantizan que estará disponible cuando se cree una implementación. Se recomienda encarecidamente que los clientes creen implementaciones antes de comprar una reserva para evitar la sobreadquisición de una reserva.

Nota:

Los requisitos de la directiva de inquilino y rol de Azure para comprar una reserva son diferentes de los necesarios para crear una implementación o un recurso de Azure OpenAI. Consulte la documentación sobre reservas aprovisionadas de Azure OpenAI para más información.

Importante: ajuste de reservas de Azure OpenAI aprovisionado

Los importes de PTU en las compras de reservas son independientes de las PTU asignadas en la cuota o usadas en las implementaciones. Es posible comprar una reserva para más PTU de las que tiene en la cuota o puede implementarse para la región, el modelo o la versión deseados. Los créditos para la sobreadquisición de una reserva son limitados y los clientes deben tomar medidas para asegurarse de que mantienen sus tamaños de reserva en línea con sus PTU implementadas.

El procedimiento recomendado es comprar siempre una reserva una vez creadas las implementaciones. Esto impide la compra de una reserva y, a continuación, averiguar que la capacidad necesaria no está disponible para la región o el modelo deseados.

Para ayudar a los clientes a comprar los importes de reserva correctos. El número total de PTU en una suscripción y región que puede cubrir una reserva se muestran en la página Cuotas de Azure OpenAI Studio. Vea el mensaje "PTU disponibles para la reserva".

Administración de reservas de Azure

Una vez creada una reserva, se recomienda supervisarla para asegurarse de que recibe el uso que espera. Esto se puede hacer a través del Portal de reservas de Azure o Azure Monitor. Puede encontrar detalles sobre estos temas y otros:

Comparteix a través de

Incorporación de unidades de procesamiento aprovisionado

Unidades de procesamiento aprovisionadas (PTU)

Escenarios típicos de PTU

Dimensionamiento de tamaño y estimación: solo administrado aprovisionado

Estimación del procesamiento aprovisionado y el costo

Descripción del modelo de compra de procesamiento aprovisionado

Uso por hora

Reservas de Azure para Azure OpenAI aprovisionado

Importante: ajuste de reservas de Azure OpenAI aprovisionado

Pasos siguientes

Comentaris

Recursos addicionals