Nota
O acceso a esta páxina require autorización. Pode tentar iniciar sesión ou modificar os directorios.
O acceso a esta páxina require autorización. Pode tentar modificar os directorios.
Nota:
En este artículo se hace referencia al portal de Microsoft Foundry (clásico).
🔄 Cambie a la documentación de Microsoft Foundry (nueva) si usa el nuevo portal.
Nota:
En este artículo se hace referencia al portal de Microsoft Foundry (nuevo).
Use este artículo para obtener información sobre los costos asociados a las unidades de rendimiento aprovisionadas (PTU). Para obtener información general sobre la oferta de rendimiento aprovisionado, consulte ¿Qué es el rendimiento aprovisionado?. Cuando esté listo para suscribirse a la oferta de rendimiento provisionado, consulte la guía de introducción.
Nota:
En los casos de uso de llamadas a funciones y agentes, el uso de tokens puede ser variable. Debe comprender el uso esperado de Tokens por minuto (TPM) en detalle antes de migrar cargas de trabajo a PTU.
Unidades de procesamiento aprovisionadas
Las unidades de rendimiento aprovisionadas (PTU) son unidades genéricas de capacidad de procesamiento de modelos que puede usar para dimensionar las implementaciones aprovisionadas y así lograr el rendimiento necesario para procesar solicitudes y generar resultados. Las unidades de procesamiento aprovisionadas se conceden a una suscripción como cuota. Cada cuota es específica de una región y define el número máximo de PTU que pueden asignarse a las implementaciones en esa suscripción y región.
Facturación de la capacidad aprovisionada
El rendimiento aprovisionado regional de Microsoft Foundry, el rendimiento aprovisionado de zona de datos y el rendimiento aprovisionado global se facturan cada hora en función del número de PTU implementados, con un descuento a plazo considerable disponible a través de la compra de reservas de Azure.
El modelo de facturación por hora es útil para las necesidades de implementación a corto plazo, como validar nuevos modelos o adquirir capacidad para un hackathon. Sin embargo, los descuentos proporcionados por la reserva de Azure para Foundry Regional Provisioned, Data Zone Provisioned y Global Provisioned son considerables y la mayoría de los clientes con un uso a largo plazo coherente encontrarán un modelo reservado para ser una mejor propuesta de valor.
Las reservas de Azure son una construcción de descuento financiero aplicada a los medidores de facturación, no a las interacciones del servicio (como la implementación). Las reservas y las implementaciones están acopladas de forma flexible para proporcionar flexibilidad. Puede crear o eliminar implementaciones y reservas de forma independiente. Este enfoque permite cambiar los recursos, las suscripciones o las implementaciones sin cambiar la construcción de facturación.
Orden recomendada de operaciones para evitar cargos no deseados:
- Use Foundry para implementar el modelo en una región con cuota disponible. Este paso confirma que existe capacidad, ya que la cuota no es igual a la capacidad.
- Después de la implementación, comparta los detalles de implementación, incluido el tipo de implementación (aprovisionado global, aprovisionado de zona de datos o aprovisionado regional), región y suscripción, con el administrador.
- El administrador usa estos detalles para comprar una nueva reserva que coincida con los detalles de implementación o comprobar que una reserva existente coincide para recibir la tarifa con descuento.
Nota:
Los clientes de Foundry aprovisionados e incorporados antes de la actualización de autoservicio de agosto utilizan un modelo de compra denominado "modelo de compromiso". Estos clientes pueden seguir usando este modelo de compra anterior junto con el modelo de compra por hora o reserva. El modelo de compromiso no está disponible para los nuevos clientes ni para determinados modelos nuevos introducidos después de agosto de 2024. Para obtener más información sobre el modelo de compra de compromiso y las opciones para la coexistencia y la migración, consulte la actualización de agosto de Foundry aprovisionado.
Cuota independiente del modelo
A diferencia de la cuota tokens por minuto (TPM) usada por otras ofertas de Foundry, las PTU son independientes del modelo. Las PTUs pueden utilizarse para implementar cualquier modelo compatible hospedado y vendido por Microsoft directamente en la región.
La cuota de las implementaciones aprovisionadas se muestra en Foundry como los siguientes tipos de implementaciones: implementación global aprovisionada, implementación de zona de datos aprovisionada y implementación regional aprovisionada.
Nota:
La cuota no garantiza la capacidad. Implemente el modelo en Foundry antes de comprar una reserva coincidente en Azure Portal.
| Tipo de implementación | Nombre de cuota |
|---|---|
| Regional aprovisionada | Unidad de procesamiento aprovisionada regional |
| Aprovisionada global | Unidad de procesamiento aprovisionada global |
| Zona de datos aprovisionada | Unidad de procesamiento aprovisionada de zona de datos |
Puede encontrar detalles sobre la cuota para implementaciones aprovisionadas en la página portal de FoundryCentro de gestión>Cuota.
Puede encontrar detalles sobre la cuota para implementaciones aprovisionadas en el portal de Microsoft Foundry, en la sección Operar del panel >Cuota.
Uso por hora
Las implementaciones aprovisionadas regionales, aprovisionadas de zona de datos y aprovisionadas globales se cobran una tarifa por hora ($/PTU/hr) en el número de PTUS que se han implementado. Por ejemplo, una implementación de 300 PTU se cobrará 300 veces el precio por hora. Todos los precios del modelo foundry están disponibles en la Calculadora de precios de Azure.
Si existe una implementación durante una hora parcial, recibirá un cargo prorrateado en función del número de minutos que se implementó durante la hora. Por ejemplo, una implementación que existe durante 15 minutos durante una hora recibirá 1/4 del cargo por hora.
Si se cambia el tamaño de la implementación, los costes de la implementación se ajustarán para que coincidan con el nuevo número de PTUs.
Pagar por implementaciones aprovisionadas regionales, aprovisionadas en zonas de datos y aprovisionadas globales por horas es ideal para escenarios de implementación a corto plazo. Por ejemplo: Pruebas comparativas de calidad y rendimiento de nuevos modelos, o aumento temporal de la capacidad de PTU para cubrir un evento como un hackatón.
Los clientes que necesiten un uso prolongado de implementaciones aprovisionadas a nivel regional, de zona de datos y global, podrían pagar significativamente menos al mes mediante la compra de un descuento a plazo a través de Azure Reservations, como se describe más adelante en el artículo.
Importante
No se recomienda escalar las implementaciones de producción de acuerdo con el tráfico entrante y pagar por ellas exclusivamente en base horaria. Hay dos razones para esto:
- El ahorro de costos logrado mediante la compra de Azure Reservations for Foundry Provisioned Throughput, Data Zone Provisioned y Global Provisioned son significativos y, en muchos casos, será menos costoso mantener un tamaño de implementación para el volumen de producción completo pagado a través de una reserva de lo que sería escalar la implementación con tráfico entrante.
- Tener cuota aprovisionada sin usar (PTU) no garantiza que la capacidad esté disponible para admitir un aumento del tamaño de la implementación cuando sea necesario. La cuota limita el número máximo de PTU que se pueden implementar, pero no es una garantía de capacidad. Es posible que la capacidad aprovisionada para cada región y modelo cambie dinámicamente a lo largo del día y no esté disponible cuando sea necesario. Como resultado, se recomienda mantener un despliegue permanente para cubrir las necesidades de tráfico (pagado a través de una reserva).
Eliminación de implementaciones de PTU
Importante
Los cargos por las implementaciones en un recurso eliminado continuarán hasta que se purgue el recurso. Para evitar cargos no deseados, elimine la implementación de un recurso antes de eliminar el recurso. Sin embargo, si ya eliminó primero el recurso, puede recuperarlo o purgarlo. Para más información, consulte Recuperación o purga de recursos de Azure OpenAI eliminados.
Eliminar una implementación no cancela ni cambia ninguna reserva de PTU. Las reservas no admiten la eliminación. Puede usar Azure Portal para cancelar o intercambiar reservas manualmente, y estas opciones pueden incurrir en cargos adicionales.
Siga estos pasos para eliminar una implementación aprovisionada para evitar cargos no deseados.
- Elimine la implementación en el portal de Foundry.
- Si planea quitar el recurso de Azure AI, elimine primero las implementaciones y, a continuación, elimine el recurso. Eliminar el recurso para detener posibles cargos.
- Vaya a la página Reservas de Azure Portal para administrar las reservas. En Azure Portal, puede comprar, cancelar o intercambiar reservas para alinearse con las implementaciones actuales.
- Elimine la implementación en el portal de Microsoft Foundry .
- Si planea quitar el recurso de Azure AI, elimine primero las implementaciones y, a continuación, elimine el recurso. Eliminar el recurso para detener posibles cargos.
- Vaya a la página Reservas de Azure Portal para administrar las reservas. En Azure Portal, puede comprar, cancelar o intercambiar reservas para alinearse con las implementaciones actuales.
Cuánto rendimiento por PTU se obtiene con cada modelo
La cantidad de rendimiento (medida en tokens por minuto o TPM) que obtiene una implementación por PTU es una función de los tokens de entrada y salida en un minuto determinado. La generación de tokens de salida requiere más procesamiento que los tokens de entrada. A partir de los modelos GPT 4.1 y versiones posteriores, el sistema suele coincidir con la relación de precios estándar global entre los tokens de entrada y salida, con excepciones para algunos modelos. Para todas las implementaciones, los tokens almacenados en caché se deducen 100% del uso.
Por ejemplo, para gpt-5, un token de salida cuenta como ocho tokens de entrada respecto al límite de uso, lo cual coincide con las tarifas. Para otros modelos, como gpt-4.1, un token de salida cuenta como cuatro tokens de entrada. Los modelos más antiguos usan una relación diferente.
Para obtener una comprensión más detallada sobre cómo afectan las distintas proporciones de tokens de entrada y salida al rendimiento que necesita la carga de trabajo, consulte la calculadora de cuotas de PTU de Foundry.
Excepciones a la relación de rendimiento de entrada y salida
El sistema permite excepciones a la relación estándar de token de entrada a salida para determinados modelos. Por ejemplo, con Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Para ver los precios de entrada y salida del modelo, consulte los precios de los modelos de Llama.
Modelos más recientes de Azure OpenAI
Nota:
gpt-4.1, gpt-4.1-mini y gpt-4.1-nano no admiten contexto largo (solicitudes estimadas con más de 128 000 tokens de aviso).
| Tema | gpt-5.2 | gpt-5.2-codex | gpt-5.1 | gpt-5.1-codex | gpt-5 | gpt-5-mini | gpt-4.1 | gpt-4.1-mini | gpt-4.1-nano | o3 | o4-mini |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 |
| Incremento de escala aprovisionado en la zona de datos y global | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Incremento de escala aprovisionada regional | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| TPM de entrada por PTU | 3,400 | 3,400 | 4750 | 4750 | 4750 | 23.750 | 3,000 | 14,900 | 59.400 | 3,000 | 5 400 |
| Valor de destino de latencia | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99 % > 80 tokens por segundo* | 99 % > 80 tokens por segundo* | 99 % > 90 tokens por segundo* | 99 % > 100 tokens por segundo* | 99 % > 80 tokens por segundo* | 99 % > 90 tokens por segundo* |
* Calculado como la latencia p50 de las solicitudes en intervalos de 5 minutos.
Modelos anteriores de Azure OpenAI
| Tema | gpt-4o | gpt-4o-mini | o3-mini | o1 |
|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 |
| Incremento de escala aprovisionado en la zona de datos y global | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 25 | 25 | 25 |
| Incremento de escala aprovisionada regional | 50 | 25 | 25 | 50 |
| TPM de entrada por PTU | 2,500 | 37 000 | 2,500 | 230 |
| Valor de destino de latencia | 99% > 25 tokens por segundo* | 99% > 33 tokens por segundo* | 99% > 66 tokens por segundo* | 99% > 25 tokens por segundo* |
* Se calcula como la latencia media de la solicitud por minuto a lo largo del mes.
Directo desde modelos de Azure
| Tema | Llama-3.3-70B-Instruct | DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 100 | 100 | 100 | 100 |
| Incremento de escala aprovisionado en la zona de datos y global | 100 | 100 | 100 | 100 |
| Implementación mínima aprovisionada regional | NOD | NOD | NOD | NOD |
| Incremento de escala aprovisionada regional | NOD | NOD | NOD | NOD |
| TPM de entrada por PTU | 8.4501 | 4\.000 | 4\.000 | 4\.000 |
| Valor de destino de latencia | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* |
* Se calcula como la latencia media de la solicitud por minuto a lo largo del mes.
1 Para Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Para más información, consulte Excepciones a la relación de rendimiento de entrada y salida.
Para ver la lista completa, consulte la calculadora de Foundry.
Determinación de los requisitos de PTU para una carga de trabajo
Determinar el número correcto de unidades de rendimiento aprovisionadas (PTU) para la carga de trabajo es un paso esencial para optimizar el rendimiento y el costo.
Las PTU representan una cantidad de capacidad de procesamiento de modelos. Al igual que ocurre con el equipo o las bases de datos, las diferentes cargas de trabajo o solicitudes al modelo consumirán diferentes cantidades de capacidad de procesamiento subyacente. La conversión de las necesidades de rendimiento a las PTU se puede aproximar mediante datos históricos de uso de tokens o estimaciones de formas de llamada (tokens de entrada, tokens de salida y solicitudes por minuto), como se describe en la documentación de rendimiento y latencia .
Para simplificar este proceso, puede usar la calculadora Foundry para dimensionar formas específicas de carga de trabajo.
Algunas consideraciones generales:
- Las generaciones requieren más capacidad que las solicitudes
- Para los modelos GPT-4o y posteriores, el TPM por PTU se establece para los tokens de entrada y salida por separado. En el caso de los modelos más antiguos, las llamadas más grandes son progresivamente más caras de proceso. Por ejemplo, 100 llamadas con un tamaño de solicitud de 1000 tokens requiere menos capacidad que 100,000 llamada con 100 000 tokens en la solicitud. Este escalonamiento significa que la distribución de estas formas de llamada es importante en el rendimiento global. Los patrones de tráfico con una distribución amplia que incluye algunas llamadas grandes pueden experimentar un menor rendimiento por PTU que una distribución más estrecha con los mismos tamaños de token de solicitud y finalización promedios.
Obtención de la cuota de PTU
Los clientes deben solicitar cuota a través del vínculo Solicitar cuota.
Si necesita más cuotas, también debe solicitarlas a través del enlace en el centro de cuotas en el centro de gestión de Foundry. El formulario permite al cliente solicitar un aumento en la cuota de PTU especificada para una región determinada. El cliente recibe un correo electrónico en la dirección incluida una vez aprobada la solicitud, normalmente en un plazo de dos días laborables.
Si se necesitan más cuotas, también debe solicitarlas a través del vínculo en Microsoft Foundry, en la sección Operar, en el panel >Cuota. El formulario permite al cliente solicitar un aumento en la cuota de PTU especificada para una región determinada. El cliente recibe un correo electrónico en la dirección incluida una vez aprobada la solicitud, normalmente en un plazo de dos días laborables.
Mínimos de PTU por modelo
La implementación de PTU mínima, los incrementos y la capacidad de procesamiento que se asocian a cada unidad varían en función del tipo de modelo y de la versión. Consulte la tabla anterior para obtener más información.
Estimación del procesamiento aprovisionado y el coste
Para obtener una estimación rápida de la carga de trabajo mediante TPM de entrada y salida, aproveche el planificador de capacidad integrado en la sección de detalles de implementación de la pantalla de diálogo de implementación. El planificador de capacidad integrado forma parte del flujo de trabajo de implementación para ayudar a simplificar el dimensionamiento y la asignación de cuota a una implementación de PTU para una carga de trabajo determinada. Para obtener más información sobre cómo identificar y calcular datos de TPM, revise las recomendaciones en nuestra documentación sobre rendimiento y latencia.
Para usar capacity planner, vaya al portal de Foundry y seleccione el botón Implementaciones . A continuación, seleccione Implementar modelo.
Elija un modelo y haga clic en Confirmar. Seleccione un tipo de implementación de rendimiento de aprovisionamiento. Después de rellenar los datos de entrada y salida de TPM en la calculadora de capacidad integrada, seleccione el botón Calcular para ver la recomendación de asignación de PTU.
Para calcular la capacidad aprovisionada mediante datos de nivel de solicitud, abra el planificador de capacidad en el portal de Foundry. La calculadora de capacidad se encuentra en el Centro de Gestión>Cuota>Rendimiento Aprovisionado.
La opción Rendimiento aprovisionado y la calculadora solo están disponibles en determinadas regiones dentro del panel Cuota. Si no ve esta opción, establecer la región de cuota en Centro de Suecia hará que esta opción esté disponible. Escriba los parámetros siguientes en función de la carga de trabajo.
| Entrada | Descripción |
|---|---|
| Modelo | modelo que planea usar. Por ejemplo: GPT-4 |
| Versión | Versión del modelo que planea usar, por ejemplo, 0614 |
| Llamadas máximas por minuto | Número de llamadas por minuto que se espera que se envíen al modelo |
| Tokens en la llamada de aviso | Número de tokens en la solicitud de cada llamada al modelo. Las llamadas con mensajes más grandes usan más de la implementación de PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación. |
| Tokens en la respuesta del modelo | Número de tokens generados de cada llamada al modelo. Las llamadas con mayor tamaño de generación utilizan más la implementación de la PTU. Actualmente, esta calculadora asume un único valor de solicitud para las cargas de trabajo con una gran varianza. Se recomienda realizar pruebas comparativas de la implementación sobre el tráfico para determinar la estimación más precisa de PTU necesaria para la implementación. |
Después de rellenar los detalles necesarios, seleccione el botón Calcular en la columna de salida.
Los valores de la columna de salida son el valor estimado de las unidades de PTU necesarias para las entradas de carga de trabajo proporcionadas. El primer valor de salida representa las unidades de PTU estimadas necesarias para la carga de trabajo, redondeadas al incremento de escala de PTU más cercano. El segundo valor de salida representa las unidades de PTU estimadas sin procesar necesarias para la carga de trabajo. Los totales del token se calculan mediante la siguiente ecuación: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).
Nota:
Las calculadoras de capacidad proporcionan una estimación basada en criterios de entrada simples. La manera más precisa de determinar la capacidad es realizar pruebas comparativas de una implementación con una carga de trabajo representacional para su caso de uso.
Reservas de Azure para el Rendimiento Aprovisionado de Foundry
Los descuentos sobre el precio de uso por hora se pueden obtener mediante la compra de una Reserva de Azure para Foundry Regional Provisioned, Data Zone Provisioned y Global Provisioned. Una reserva de Azure es un mecanismo de descuento a términos compartido por muchos productos de Azure. Por ejemplo, Proceso y Cosmos DB. En el caso de Foundry Regional Provisioned, Data Zone Provisioned y Global Provisioned, la reserva proporciona un descuento a cambio de confirmar el pago de un número fijo de PTUs durante un período de un mes o un año.
Las reservas de Azure se compran a través de la página Reservas de Azure Portal.
Las reservas se adquieren de forma regional y pueden tener un ámbito flexible para cubrir el uso de un grupo de implementaciones. El ámbitos de reserva incluye:
Grupos de recursos individual o suscripciones
Un grupo de suscripciones a un grupo de administración
Todas las suscripciones en una cuenta de facturación
El descuento se aplica cuando el tipo de implementación (regional,zona de datos/global), región y ámbito de reserva (suscripción o grupo de recursos) coinciden con la implementación en ejecución. La coincidencia no es mediante el modelo o el identificador de implementación. Las implementaciones múltiples dentro del ámbito pueden consumir la misma reserva hasta su cantidad de PTU.
Se pueden comprar nuevas reservas para cubrir el mismo ámbito que las reservas existentes, para permitir el descuento de las nuevas implementaciones aprovisionadas. El ámbito de las reservas existentes también se puede actualizar en cualquier momento sin penalización, por ejemplo, para cubrir una nueva suscripción.
Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.
Las reservas se pueden cancelar después de la compra, pero los créditos están limitados.
Si el tamaño de las implementaciones aprovisionadas dentro del ámbito de una reserva supera la cantidad de la reserva, el exceso se cobra según la tarifa horaria. Por ejemplo, si las implementaciones que ascienden a 250 PTU existen dentro del ámbito de una reserva de 200 PTU, se cobrarán 50 PTUs cada hora hasta que los tamaños de implementación se reduzcan a 200 PTU o se cree una nueva reserva para cubrir los 50 restantes.
Las reservas garantizan un precio con descuento para el período seleccionado. No reservan capacidad en el servicio ni garantizan que estará disponible cuando se cree una implementación. Se recomienda encarecidamente que los clientes creen despliegues antes de comprar una reserva para protegerse contra la compra excesiva de reservas.
Importante
La disponibilidad de la capacidad para las implementaciones de modelos es dinámica y cambia con frecuencia entre regiones y modelos. Para protegerse frente a la compra de una reserva para más PTUs de las que puede usar, cree primero las implementaciones y, a continuación, compre la reserva de Azure para cubrir las PTUs que ha implementado. Este procedimiento recomendado garantizará que pueda aprovechar al máximo el descuento por reserva y le protege de comprometerse a una reserva que no pueda usar.
Los requisitos de la directiva de inquilino y rol de Azure para comprar una reserva son diferentes de los necesarios para crear una implementación o un recurso de Foundry. Compruebe la autorización para comprar reservas con antelación a la necesidad de hacerlo. Consulte Reserva de rendimiento aprovisionado de Foundry para obtener más detalles.
Ajuste el tamaño de su reserva de rendimiento aprovisionado de Foundry
Los importes de PTU en las compras de reservas son independientes de las PTU asignadas en la cuota o usadas en las implementaciones. Es posible comprar una reserva para más PTU de las que tiene en la cuota o puede implementarse para la región, el modelo o la versión deseados. Los créditos para la sobreadquisición de una reserva son limitados y los clientes deben tomar medidas para asegurarse de que mantienen sus tamaños de reserva en línea con sus PTU implementadas.
El procedimiento recomendado es comprar siempre una reserva una vez creadas las implementaciones. Esto protege contra la compra de una reserva y, a continuación, averiguar que la capacidad necesaria no está disponible para la región o el modelo deseados.
Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.
Para ayudar a los clientes a comprar los importes de reserva correctos. El número total de PTU de una suscripción y región que se pueden cubrir con una reserva se indica en la página Cuotas del portal de Foundry. Vea el mensaje "PTU disponibles para la reserva".
Administración de reservas de Azure
Una vez creada una reserva, supervisela a través de Azure Reservation Portal o Azure Monitor para asegurarse de que la reserva recibe el uso esperado. Para más información sobre cómo administrar y supervisar las reservas de Azure, consulte estos artículos:
- Visualización del uso de las reservas de Azure
- Visualización de las transacciones de compra y reembolso de Reserva de Azure
- Ver los costos de ventajas amortizadas
- Contracargo de costos de reserva de Azure
- Renovación automática de reservas de Azure
Contenido relacionado
- Guía de introducción a las unidades de rendimiento aprovisionadas (PTU)
- Conceptos de las unidades de procesamiento aprovisionado (PTU)
- Documentación de reserva de rendimiento aprovisionado
- Rendimiento y latencia
- Tipos de implementación
- Actualizaciones de ofertas administradas provistas de Azure OpenAI