Compartir vía


Foundry Models vendido directamente por Azure

Nota:

Este documento hace referencia al portal de Microsoft Foundry (clásico).

🔄 Cambie a la documentación de Microsoft Foundry (nueva) si usa el nuevo portal.

Nota:

Este documento hace referencia al portal de Microsoft Foundry (nuevo).

En este artículo se muestra una selección de modelos de Microsoft Foundry vendidos directamente por Azure junto con sus funcionalidades, tipos de implementación y regiones de disponibilidad, excepto los modelos en desuso y heredados. Para ver una lista de modelos de Azure OpenAI compatibles con el servicio Foundry Agent, consulte Modelos compatibles con el servicio agente.

Los modelos vendidos directamente por Azure incluyen todos los modelos de Azure OpenAI y modelos específicos seleccionados de los principales proveedores.

En función del tipo de proyecto que use en Microsoft Foundry, verá una selección diferente de modelos. En concreto, si usa un proyecto Foundry basado en un recurso Foundry, verá los modelos disponibles para la implementación estándar en un recurso Foundry. Como alternativa, si usa un proyecto basado en concentrador hospedado por un centro Foundry, verá los modelos disponibles para su implementación en las APIs de computación administrada y sin servidor. Estas selecciones de modelo suelen superponerse porque muchos modelos admiten varias opciones de implementación.

Los Modelos Foundry están disponibles para la implementación estándar en un recurso Foundry.

Para más información sobre los atributos de Foundry Models vendidos directamente por Azure, consulte Exploración de modelos de Foundry.

Nota:

Los modelos foundry vendidos directamente por Azure también incluyen modelos seleccionados de los siguientes proveedores de modelos principales:

  • Laboratorios de bosque negro: FLUX.1-Kontext-pro, FLUX-1.1-pro
  • Cohere: Cohere-command-a, embed-v-4-0
  • DeepSeek: DeepSeek-V3.1, DeepSeek-V3-0324, , DeepSeek-R1-0528, DeepSeek-R1
  • Meta: Llama-4-Maverick-17B-128E-Instruct-FP8, Llama-3.3-70B-Instruct
  • Microsoft: MAI-DS-R1, model-router
  • Mistral: mistral-document-ai-2505, Mistral-Large-3
  • xAI: grok-code-fast-1, grok-3, grok-3-mini, grok-4-fast-reasoning, grok-4-fast-non-reasoning, grok-4

Para obtener información sobre estos modelos, cambie a Otras colecciones de modelos en la parte superior de este artículo.

Azure OpenAI en modelos de Microsoft Foundry

Azure OpenAI se basa en un conjunto diverso de modelos con diferentes funcionalidades y puntos de precio. La disponibilidad de los modelos varía según la región y la nube. Para obtener disponibilidad del modelo de Azure Government, consulte Azure OpenAI en Azure Government.

Models Description
Serie GPT-5.1 NUEVOgpt-5.1, gpt-5.1-chat, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NUEVO sora-2
Serie GPT-5 gpt-5, gpt-5-mini, gpt-5-nano, gpt-5-chat
gpt-oss modelos de razonamiento con distribución flexible de pesos
codex-mini Versión perfeccionada de o4-mini.
Serie GPT-4.1 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano
computer-use-preview Un modelo experimental entrenado para su uso con la herramienta de uso del equipo de la API de respuestas.
Modelos de la serie o Modelos de razonamiento con resolución avanzada de problemas y mayor enfoque y capacidad.
GPT-4o, GPT-4o mini y GPT-4 Turbo Modelos de Azure OpenAI con versiones multimodales, que pueden aceptar texto e imágenes como entrada.
GPT-4 Conjunto de modelos que mejoran GPT-3.5 y que pueden reconocer y generar lenguaje natural y código.
GPT-3.5 Conjunto de modelos que mejoran GPT-3 y que pueden reconocer y generar lenguaje natural y código.
Embeddings Un conjunto de modelos que pueden convertir texto en forma vectorial numérica para facilitar la similitud del texto.
Generación de imágenes Una serie de modelos que pueden generar imágenes originales a partir de lenguaje natural.
Video generation Modelo que puede generar escenas de vídeo originales a partir de instrucciones de texto.
Audio Una serie de modelos para conversión de voz en texto, traducción y texto a voz. Los modelos de audio GPT-4o admiten interacciones conversacionales de baja latencia entrada de voz, salida de voz o generación de audio.

GPT-5.1

Disponibilidad de regiones

Modelo Región
gpt-5.1 Este de EE. UU. 2 y Centro de Suecia (Estándar global y Estándar de DataZone)
gpt-5.1-chat East US2 y Sweden Central (estándar global)
gpt-5.1-codex East US2 y Sweden Central (estándar global)
gpt-5.1-codex-mini East US2 y Sweden Central (estándar global)

Se concederá acceso en función de los criterios de idoneidad de Microsoft. Los clientes que solicitaron y recibieron acceso previamente a un modelo de acceso limitado no necesitan volver a solicitar, ya que sus suscripciones aprobadas se les concederá automáticamente acceso una vez que el modelo sea lanzado.

Id. de modelo Description Ventana de contexto Número máximo de tokens de salida Datos de entrenamiento (hasta)
gpt-5.1 (2025-11-13) - Razonamiento
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades.
400 000

Entrada: 272,000
Salida: 128,000
128 000 30 de septiembre de 2024
gpt-5.1-chat (2025-11-13) - Razonamiento
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas
- Funciones, herramientas y llamadas a herramientas paralelas.
128,000

Entrada: 111 616
Salida: 16 384
16 384 30 de septiembre de 2024
gpt-5.1-codex (2025-11-13) - Solo la API de respuestas .
- Procesamiento de texto e imagen
- Salidas estructuradas.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades
- Optimizado para Codex CLI y la extensión de Codex VS Code
400 000

Entrada: 272,000
Salida: 128,000
128 000 30 de septiembre de 2024
gpt-5.1-codex-mini (2025-11-13) - Solo la API de respuestas .
- Procesamiento de texto e imagen
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades
- Optimizado para Codex CLI y la extensión de Codex VS Code
400 000

Entrada: 272,000
Salida: 128,000
128 000 30 de septiembre de 2024

Importante

  • gpt-5.1 reasoning_effort el valor predeterminado es none. Al actualizar desde modelos de razonamiento anteriores a gpt-5.1, tenga en cuenta que es posible que tenga que actualizar el código para pasar explícitamente un nivel de reasoning_effort si desea que se lleve a cabo el razonamiento.

  • gpt-5.1-chat agrega funcionalidades de razonamiento integradas. Al igual que otros modelos de razonamiento , no admite parámetros como temperature. Si actualiza de utilizar gpt-5-chat (que no es un modelo de razonamiento) a gpt-5.1-chat, asegúrese de quitar cualquier parámetro personalizado, como temperature, de su código que no sean compatibles con los modelos de razonamiento.

GPT-5

Disponibilidad de regiones

Modelo Región
gpt-5 (2025-08-07) Vea la tabla de modelos.
gpt-5-mini (2025-08-07) Vea la tabla de modelos.
gpt-5-nano (2025-08-07) Vea la tabla de modelos.
gpt-5-chat (2025-08-07) Vea la tabla de modelos.
gpt-5-chat (2025-10-03) Este de EE. UU. 2 (Estándar global) y Centro de Suecia (estándar global)
gpt-5-codex (2025-09-11) Este de EE. UU. 2 (Estándar global) y Centro de Suecia (estándar global)
gpt-5-pro (2025-10-06) Este de EE. UU. 2 (Estándar global) y Centro de Suecia (estándar global)

Se concederá acceso en función de los criterios de idoneidad de Microsoft. Los clientes que solicitaron y recibieron acceso previamente a o3, no necesitan volver a solicitar, ya que sus suscripciones aprobadas se les concederá el acceso automáticamente una vez que el modelo sea lanzado.

Id. de modelo Description Ventana de contexto Número máximo de tokens de salida Datos de entrenamiento (hasta)
gpt-5 (2025-08-07) - Razonamiento
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades.
400 000

Entrada: 272,000
Salida: 128,000
128 000 30 de septiembre de 2024
gpt-5-mini (2025-08-07) - Razonamiento
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades.
400 000

Entrada: 272,000
Salida: 128,000
128 000 31 de mayo de 2024
gpt-5-nano (2025-08-07) - Razonamiento
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades.
400 000

Entrada: 272,000
Salida: 128,000
128 000 31 de mayo de 2024
gpt-5-chat (2025-08-07)
Versión preliminar
- API Chat Completions.
- API de respuestas.
- Entrada: Texto/Imagen
- Salida: Solo texto
128 000 16 384 30 de septiembre de 2024
gpt-5-chat (2025-10-03)
Vista previa1
- API Chat Completions.
- API de respuestas.
- Entrada: Texto/Imagen
- Salida: Solo texto
128 000 16 384 30 de septiembre de 2024
gpt-5-codex (2025-09-11) - Solo la API de respuestas .
- Entrada: Texto/Imagen
- Salida: solo texto
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
- Resumen completo de las funcionalidades
- Optimizado para Codex CLI y la extensión de Codex VS Code
400 000

Entrada: 272,000
Salida: 128,000
128 000 -
gpt-5-pro (2025-10-06) - Razonamiento
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones y herramientas
- Resumen completo de las funcionalidades.
400 000

Entrada: 272,000
Salida: 128,000
128 000 30 de septiembre de 2024

Nota:

1gpt-5-chat versión 2025-10-03 presenta una mejora significativa centrada en la inteligencia emocional y las capacidades de salud mental. Esta actualización integra conjuntos de datos especializados y estrategias de respuesta refinadas para mejorar la capacidad del modelo para:

  • Comprenda e interprete el contexto emocional con mayor precisión, lo que permite interacciones matizadas y empáticas.
  • Proporcionar respuestas de apoyo y responsables en conversaciones relacionadas con la salud mental, garantizando la sensibilidad y el cumplimiento de los procedimientos recomendados.

Estas mejoras tienen como objetivo hacer que GPT-5-chat sea más consciente del contexto, centrado en el ser humano y confiable en escenarios en los que el tono emocional y las consideraciones de bienestar son fundamentales.

gpt-oss

Disponibilidad de regiones

Modelo Región
gpt-oss-120b Regiones de Azure OpenAI

Capabilities

Id. de modelo Description Ventana de contexto Número máximo de tokens de salida Datos de entrenamiento (hasta)
gpt-oss-120b (versión preliminar) - Solo texto de entrada y salida de texto
- API de finalizaciones de chat
-Streaming
- Llamada a funciones
- Salidas estructuradas
- Razonamiento
- Disponible para la implementación1 y a través del proceso administrado
131 072 131 072 31 de mayo de 2024
gpt-oss-20b (versión preliminar) - Solo texto de entrada y salida de texto
- API de finalizaciones de chat
-Streaming
- Llamada a funciones
- Salidas estructuradas
- Razonamiento
- Disponible a través de computación gestionada y Foundry Local
131 072 131 072 31 de mayo de 2024

1 A diferencia de otros modelos de Azure OpenAI, se requiere un gpt-oss-120b para implementar el modelo.

Implementación con código

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Serie GPT-4.1

Disponibilidad de regiones

Modelo Región
gpt-4.1 (2025-04-14) Vea la tabla de modelos.
gpt-4.1-nano (2025-04-14) Vea la tabla de modelos.
gpt-4.1-mini (2025-04-14) Vea la tabla de modelos.

Capabilities

Importante

Un problema conocido afecta a todos los modelos de la serie GPT 4.1. Las definiciones de llamadas de función o herramienta grandes que superan los 300 000 tokens producirán errores, aunque no se haya alcanzado el límite de contexto de 1 millón de tokens de los modelos.

Los errores pueden variar en función de las características de carga subyacente y llamada API.

Estos son los mensajes de error de la API Chat Completions:

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Este es el mensaje de error de la API Responses:

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
Id. de modelo Description Ventana de contexto Núm. máx. de tokens Datos de entrenamiento (hasta)
gpt-4.1 (2025-04-14) - Entrada de texto e imagen
- Salida de texto
- API de finalizaciones de chat
- API de respuestas
-Streaming
- Llamada a funciones
- Salidas estructuradas (finalizaciones de chat)
- 1,047,576
- 128 000 (implementaciones administradas aprovisionadas)
- 300 000 (implementaciones por lotes)
32,768 31 de mayo de 2024
gpt-4.1-nano (2025-04-14) - Entrada de texto e imagen
- Salida de texto
- API de finalizaciones de chat
- API de respuestas
-Streaming
- Llamada a funciones
- Salidas estructuradas (finalizaciones de chat)
- 1,047,576
- 128 000 (implementaciones administradas aprovisionadas)
- 300 000 (implementaciones por lotes)
32,768 31 de mayo de 2024
gpt-4.1-mini (2025-04-14) - Entrada de texto e imagen
- Salida de texto
- API de finalizaciones de chat
- API de respuestas
-Streaming
- Llamada a funciones
- Salidas estructuradas (finalizaciones de chat)
- 1,047,576
- 128 000 (implementaciones administradas aprovisionadas)
- 300 000 (implementaciones por lotes)
32,768 31 de mayo de 2024

computer-use-preview

Un modelo experimental entrenado para su uso con la herramienta de uso del equipo de La API de respuestas.

Se puede usar con bibliotecas de terceros para permitir que el modelo controle la entrada del mouse y el teclado, al tiempo que se obtiene el contexto de los recortes de pantalla del entorno actual.

Precaución

No se recomienda usar modelos de versión preliminar en producción. Actualizaremos todas las implementaciones de modelos preliminares a futuras versiones preliminares o a la última versión estable o de disponibilidad general. Los modelos designados en versión preliminar no siguen el ciclo de vida estándar del modelo de Azure OpenAI.

El registro es necesario para acceder a computer-use-preview. El acceso se concede en función de los criterios de idoneidad de Microsoft. Los clientes que tienen acceso a otros modelos de acceso limitado todavía necesitan solicitar acceso a este modelo.

Para solicitar acceso, vaya a la computer-use-previewaplicación de modelo de acceso limitado. Cuando se concede acceso, debe crear una implementación para el modelo.

Disponibilidad de regiones

Modelo Región
computer-use-preview Vea la tabla de modelos.

Capabilities

Id. de modelo Description Ventana de contexto Núm. máx. de tokens Datos de entrenamiento (hasta)
computer-use-preview (2025-03-11) Modelo especializado para su uso con la herramienta de uso del equipo de La API de respuestas

-Herramientas
-Streaming
- Texto (entrada/salida)
- Imagen (entrada)
8,192 1024 Octubre de 2023

Modelos de la serie o

Los modelos de la serie o de Azure OpenAI están diseñados para abordar tareas de razonamiento y resolución de problemas con un mayor foco y capacidad. Estos modelos invierten más tiempo en procesar y comprender la solicitud del usuario, lo que hace que sean excepcionalmente fuertes en áreas como ciencia, codificación y matemáticas en comparación con las iteraciones anteriores.

Id. de modelo Description Solicitud máxima (tokens) Datos de entrenamiento (hasta)
codex-mini (2025-05-16) Versión ajustada de o4-mini.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones y herramientas.
Resumen completo de las funcionalidades.
Entrada: 200 000
Salida: 100 000
31 de mayo de 2024
o3-pro (2025-06-10) - API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones y herramientas.
Resumen completo de las funcionalidades.
Entrada: 200 000
Salida: 100 000
31 de mayo de 2024
o4-mini (2025-04-16) - Nuevo modelo de razonamiento, que ofrece capacidades de razonamiento mejoradas.
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones y herramientas.
Resumen completo de las funcionalidades.
Entrada: 200 000
Salida: 100 000
31 de mayo de 2024
o3 (2025-04-16) - Nuevo modelo de razonamiento, que ofrece capacidades de razonamiento mejoradas.
- API Chat Completions.
- API de respuestas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones, herramientas y llamadas a herramientas paralelas.
Resumen completo de las funcionalidades.
Entrada: 200 000
Salida: 100 000
31 de mayo de 2024
o3-mini (2025-01-31) - Capacidades de razonamiento mejoradas.
- Salidas estructuradas.
- Procesamiento de solo texto
- Funciones y herramientas.
Entrada: 200 000
Salida: 100 000
Octubre de 2023
o1 (2024-12-17) - Capacidades de razonamiento mejoradas.
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Funciones y herramientas.
Entrada: 200 000
Salida: 100 000
Octubre de 2023
o1-preview (2024-09-12) Versión preliminar anterior Entrada: 128 000
Salida: 32,768
Octubre de 2023
o1-mini (2024-09-12) Una opción más rápida y rentable en la serie o1, ideal para las tareas de codificación que requieren velocidad y menor consumo de recursos.
- Implementación estándar global disponible de manera predeterminada.
Las implementaciones estándar (regionales) solo están disponibles actualmente para clientes seleccionados que recibieron acceso como parte de la versión de acceso limitado de o1-preview.
Entrada: 128 000
Salida: 65,536
Octubre de 2023

Para más información sobre los modelos avanzados de la serie o, consulte Introducción a los modelos de razonamiento.

Disponibilidad de regiones

Modelo Región
codex-mini Este de EE. UU. 2 y Centro de Suecia (estándar global).
o3-pro Este de EE. UU. 2 y Centro de Suecia (estándar global).
o4-mini Vea la tabla de modelos.
o3 Vea la tabla de modelos.
o3-mini Vea la tabla de modelos.
o1 Vea la tabla de modelos.
o1-preview Vea la tabla de modelos. Este modelo solo está disponible para los clientes a los que se les concedió acceso como parte del acceso limitado original.
o1-mini Vea la tabla de modelos.

GPT-4o y GPT-4 Turbo

GPT-4o integra texto e imágenes en un único modelo, lo que le permite controlar varios tipos de datos simultáneamente. Este enfoque multimodal mejora la precisión y la capacidad de respuesta en las interacciones persona-ordenador. GPT-4o iguala a GPT-4 Turbo en tareas de texto y codificación en inglés, al tiempo que ofrece un rendimiento superior en idiomas distintos del inglés y en tareas de visión, estableciendo nuevos puntos de referencia para las capacidades de IA.

Modelos GPT-4 y GPT-4 Turbo

Estos modelos solo se pueden usar con la API Chat Completions.

Consulte Versiones de modelo para obtener información sobre cómo Azure OpenAI controla las actualizaciones de la versión del modelo. Consulte Trabajar con modelos para obtener información sobre cómo ver y configurar la configuración de la versión del modelo de las implementaciones de GPT-4.

Id. de modelo Description Solicitud máxima (tokens) Datos de entrenamiento (hasta)
gpt-4o (2024-11-20)
GPT-4o (Omni)
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Modo JSON.
- Llamada a funciones paralelas.
- Precisión mejorada y capacidad de respuesta.
- Paridad con texto en inglés y tareas de codificación en comparación con GPT-4 Turbo con Vision.
- Rendimiento superior en idiomas que no son inglés y en tareas de visión.
- Capacidad de escritura creativa mejorada.
Entrada: 128 000
Salida: 16 384
Octubre de 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
- Salidas estructuradas.
- Procesamiento de texto e imagen.
- Modo JSON.
- Llamada a funciones paralelas.
- Precisión mejorada y capacidad de respuesta.
- Paridad con texto en inglés y tareas de codificación en comparación con GPT-4 Turbo con Vision.
- Rendimiento superior en idiomas que no son inglés y en tareas de visión.
Entrada: 128 000
Salida: 16 384
Octubre de 2023
gpt-4o-mini (2024-07-18)
GPT-4o mini
- Modelo rápido, económico y capaz ideal para reemplazar los modelos de la serie GPT-3.5 Turbo.
- Procesamiento de texto e imagen.
- Modo JSON.
- Llamada a funciones paralelas.
Entrada: 128 000
Salida: 16 384
Octubre de 2023
gpt-4o (13/05/2024)
GPT-4o (Omni)
- Procesamiento de texto e imagen.
- Modo JSON.
- Llamada a funciones paralelas.
- Precisión mejorada y capacidad de respuesta.
- Paridad con texto en inglés y tareas de codificación en comparación con GPT-4 Turbo con Vision.
- Rendimiento superior en idiomas que no son inglés y en tareas de visión.
Entrada: 128 000
Salida: 4,096
Octubre de 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo con Vision
Nuevo modelo disponible con carácter general.
- Reemplazo de todos los modelos previos de GPT-4 en versión preliminar (vision-preview, 1106-Preview, 0125-Preview).
- La disponibilidad de características es actualmente diferente, según el método de entrada y el tipo de implementación.
Entrada: 128 000
Salida: 4,096
Diciembre de 2023

Precaución

No se recomienda usar modelos en versión preliminar en producción. Actualizaremos todas las implementaciones de modelos preliminares a futuras versiones preliminares o a la última versión estable o de disponibilidad general. Los modelos designados en versión preliminar no siguen el ciclo de vida estándar del modelo de Azure OpenAI.

GPT-3.5

Los modelos GPT-3.5 pueden comprender y generar lenguaje natural o código. El modelo más capaz y rentable de la familia GPT-3.5 es GPT-3.5 Turbo, que está optimizado para chat y también funciona bien para las tareas de finalización tradicionales. GPT-3.5 Turbo está disponible para su uso con la API de finalización de chat. GPT-3.5 Turbo Instruct tiene funcionalidades similares a text-davinci-003 cuando se usa la API de Completions en lugar de la API Chat Completions. Se recomienda usar GPT-3.5 Turbo y GPT-3.5 Turbo Instruct en vez de los modelos GPT-3.5 y GPT-3.5 heredados.

Id. de modelo Description Solicitud máxima (tokens) Datos de entrenamiento (hasta)
gpt-35-turbo (0125) nuevo - Modo JSON.
- Llamada a funciones paralelas.
- Salida reproducible (versión preliminar).
- Mayor precisión cuando responde en formatos solicitados.
- Incluye una corrección para un error que provocó un problema de codificación de texto para llamadas a funciones que no son en inglés.
Entrada: 16 385
Salida: 4,096
Septiembre de 2021
gpt-35-turbo (1106) Modelo más antiguo disponible con carácter general.
- Modo JSON.
- Llamada a funciones paralelas.
- Salida reproducible (versión preliminar).
Entrada: 16 385
Salida: 4,096
Septiembre de 2021
gpt-35-turbo-instruct (0914) Solo puntos de conexión de finalizaciones.
- Reemplazo de modelos de finalizaciones heredadas.
4,097 Septiembre de 2021

Para obtener más información sobre cómo interactuar con GPT-3.5 Turbo y la API Chat Completions, consulte nuestro artículo de procedimientos detallado.

Incrustaciones

text-embedding-3-large es el modelo de inserción más reciente y capaz. No se pueden actualizar entre los modelos de inserción. Para pasar de usar text-embedding-ada-002 a text-embedding-3-large, debe generar nuevas incrustaciones.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

Los informes de OpenAI que las pruebas muestran que los modelos de incrustaciones grandes y pequeñas de tercera generación ofrecen un mejor rendimiento promedio de recuperación de varios lenguajes con la prueba comparativa MIRACL. Siguen manteniendo el rendimiento de las tareas en inglés con el banco de pruebas MTEB.

Punto de referencia de la evaluación text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Promedio de MIRACL 31.4 44.0 54.9
Promedio de MTEB 61.0 62.3 64.6

Los modelos de inserción de tercera generación admiten reducir el tamaño de la inserción mediante un nuevo parámetro dimensions. Por lo general, las inserciones más grandes son más costosas desde una perspectiva de proceso, memoria y almacenamiento. Cuando puede ajustar el número de dimensiones, obtendrá más control sobre el costo general y el rendimiento. El parámetro dimensions no se admite en todas las versiones de la biblioteca de Python de OpenAI 1.x. Para aprovechar este parámetro, se recomienda actualizar a la versión más reciente: pip install openai --upgrade.

Las pruebas del punto de referencia MTEB de OpenAI han detectado que, incluso cuando las dimensiones del modelo de tercera generación, se reducen a menos de 1536 dimensiones de text-embeddings-ada-002, el rendimiento sigue siendo ligeramente mejor.

Modelos de generación de imágenes

Los modelos de generación de imágenes generan imágenes a partir de mensajes de texto que proporciona el usuario. Los modelos de la serie GPT-image-1 están en versión preliminar de acceso limitado. DALL-E 3 está disponible con carácter general para su uso con las API REST. DALL-E 2 y DALL-E 3 con SDK de cliente están en versión preliminar.

El registro es necesario para acceder a gpt-image-1 o gpt-image-1-mini. El acceso se concede en función de los criterios de idoneidad de Microsoft. Los clientes que tienen acceso a otros modelos de acceso limitado todavía necesitan solicitar acceso a este modelo.

Para solicitar acceso, vaya a la gpt-image-1aplicación de modelo de acceso limitado. Cuando se concede acceso, debe crear una implementación para el modelo.

Disponibilidad de regiones

Modelo Región
dall-e-3 East US
Australia East
Centro de Suecia
gpt-image-1 Oeste de EE. UU. 3 (Estándar global)
Este de EE. UU. 2 (estándar global)
Norte de Emiratos Árabes Unidos (Estándar Global)
Centro de Polonia (estándar global)
Centro de Suecia (Estándar global)
gpt-image-1-mini Oeste de EE. UU. 3 (Estándar global)
Este de EE. UU. 2 (estándar global)
Norte de Emiratos Árabes Unidos (Estándar Global)
Centro de Polonia (estándar global)
Centro de Suecia (Estándar global)

Modelos de generación de vídeo

Sora es un modelo de IA de OpenAI que puede crear escenas de vídeo realistas e imaginativas a partir de instrucciones de texto. Sora está en versión preliminar.

Disponibilidad de regiones

Modelo Región
sora Este de EE. UU. 2 (estándar global)
Centro de Suecia (Estándar global)
sora-2 Este de EE. UU. 2 (estándar global)
Centro de Suecia (Estándar global)

Modelos de audio

Los modelos de audio de Azure OpenAI están disponibles a través de las realtimeAPI , completionsy audio .

Modelos de audio GPT-4o

Los modelos de audio GPT 4o forman parte de la familia de modelos GPT-4o y admiten interacciones conversacionales de baja latencia, entrada de voz y salida de voz o generación de audio.

Precaución

No se recomienda usar modelos de versión preliminar en producción. Actualizaremos todas las implementaciones de modelos preliminares a futuras versiones preliminares o a la última versión estable o de disponibilidad general. Los modelos designados en versión preliminar no siguen el ciclo de vida estándar del modelo de Azure OpenAI.

En la tabla siguiente, encontrará detalles sobre el número máximos de tokens de solicitud y los datos de entrenamiento:

Id. de modelo Description Solicitud máxima (tokens) Datos de entrenamiento (hasta)
gpt-4o-mini-audio-preview (2024-12-17)
Audio de GPT-4o
Modelo de audio para la generación de audio y texto. Entrada: 128 000
Salida: 16 384
Septiembre de 2023
gpt-4o-audio-preview (2024-12-17)
Audio de GPT-4o
Modelo de audio para la generación de audio y texto. Entrada: 128 000
Salida: 16 384
Septiembre de 2023
gpt-4o-realtime-preview (2025-06-03)
Audio de GPT-4o
Modelo de audio para el procesamiento de audio en tiempo real. Entrada: 128 000
Salida: 4,096
Octubre de 2023
gpt-4o-realtime-preview (2024-12-17)
Audio de GPT-4o
Modelo de audio para el procesamiento de audio en tiempo real. Entrada: 128 000
Salida: 4,096
Octubre de 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Audio de GPT-4o
Modelo de audio para el procesamiento de audio en tiempo real. Entrada: 128 000
Salida: 4,096
Octubre de 2023
gpt-realtime (2025-08-28) (GA)
gpt-realtime-mini (2025-10-06)
gpt-audio(28-08-2025)
gpt-audio-mini(06-10-2025)
Modelo de audio para el procesamiento de audio en tiempo real. Entrada: 28,672
Salida: 4,096
Octubre de 2023

Para comparar la disponibilidad de los modelos de audio GPT-4o en todas las regiones, consulte la tabla de modelos.

Audio API

Los modelos de audio a través de la /audio API se pueden usar para la conversión de voz en texto, traducción y texto a voz.

Modelos de conversión de voz en texto

Id. de modelo Description Solicitud máxima (tamaño de archivo de audio)
whisper Modelo de reconocimiento de voz de uso general. 25 MB
gpt-4o-transcribe Modelo de conversión de voz en texto con tecnología GPT-4o. 25 MB
gpt-4o-mini-transcribe Modelo de conversión de voz en texto con tecnología de GPT-4o mini. 25 MB
gpt-4o-transcribe-diarize Modelo de voz a texto con reconocimiento automático de voz. 25 MB

Modelos de traducción de voz

Id. de modelo Description Solicitud máxima (tamaño de archivo de audio)
whisper Modelo de reconocimiento de voz de uso general. 25 MB

Modelos de texto a voz (versión preliminar)

Id. de modelo Description
tts Modelo de texto a voz optimizado para velocidad.
tts-hd Modelo de texto a voz optimizado para calidad.
gpt-4o-mini-tts Modelo de texto a voz con tecnología de GPT-4o mini.

Puede guiar la voz para que hable en un estilo o tono específico.

Para más información, consulte Disponibilidad de regiones de modelos de audio más adelante en este artículo.

Tabla de resumen de los modelos y disponibilidad por región

Modelos por tipo de implementación

Azure OpenAI proporciona a los clientes opciones en la estructura de hospedaje que se ajustan a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementación:

  • Estándar tiene una opción de implementación global, enrutando el tráfico globalmente para proporcionar un mayor rendimiento.
  • Aprovisionado también tiene una opción de implementación global, lo que permite a los clientes comprar e implementar unidades de procesamiento aprovisionadas en toda la infraestructura global de Azure.

Todas las implementaciones pueden realizar exactamente las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento son considerablemente diferentes. Para más información sobre los tipos de implementación de Azure OpenAI, consulte nuestra guía de tipos de implementación.

Disponibilidad del modelo estándar global

Region gpt-5.1, 2025-11-13 gpt-5.1-chat, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5.1-codex-mini, 2025-11-13 gpt-5-pro, 2025-10-06 gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 gpt-5-nano, 2025-08-07 gpt-5-chat, 2025-08-07 gpt-5-chat, 2025-10-03 o3-pro, 2025-06-10 codex-mini, 2025-05-16 sora, 2025-05-02 model-router, 2025-08-07 model-router, 2025-05-19 model-router, 2025-11-18 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-image-1, 2025-04-15 gpt-4.1, 2025-04-14 gpt-4.1-nano, 2025-04-14 gpt-4.1-mini, 2025-04-14 vista previa del uso de la computadora, 11 de marzo de 2025 o3-mini, 2025-01-31 o1, 2024-12-17 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o, 2024-11-20 gpt-4o-mini, 2024-07-18 inserción de texto-3-small, 1 Text-Embedding-3-Large, 1 text-embedding-ada-002, 2 gpt-4o-realtime-preview, 2024-12-17 gpt-4o-realtime-preview, 2025-06-03 gpt-4o-audio-preview, 2024-12-17 gpt-4o-mini-realtime-preview, 2024-12-17 gpt-4o-mini-audio-preview, 2024-12-17 gpt-4o-transcribe, 2025-03-20 gpt-4o-mini-tts, 2025-03-20 gpt-4o-mini-transcribe, 2025-03-20 gpt-5-codex, 2025-09-15 gpt-realtime, 2025-08-28 gpt-audio-mini, 2025-10-06 gpt-image-1-mini, 2025-10-06 gpt-realtime-mini, 2025-10-06 gpt-audio, 2025-08-28 sora-2, 2025-10-06 o3-deep-research, 2025-06-26 gpt-4o-transcribe-diarize, 2025-10-15
australiaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
centralus - - - - - - - - - - - - - - - - - - - - - - -
eastus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
eastus2 -
francecentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
italynorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
japaneast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
koreacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
norwayeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
polandcentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southeastasia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southindia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
swedencentral - - -
switzerlandnorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uksouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westeurope - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Nota:

Actualmente, o3-deep-research solo está disponible con el Servicio de Agente de Foundry. Para más información, consulte la guía de la herramienta Deep Research.

Esta tabla no incluye información de disponibilidad regional de ajuste preciso. Consulte la sección de ajuste para obtener esta información.

Modelos de implementación estándar (regionales) por punto de conexión

Completaciones de chat

Region o1-preview, 2024-09-12 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, turbo-2024-04-09 gpt-35-turbo, 1106 gpt-35-turbo, 0125
australiaeast - - - - - -
canadaeast - - - - - -
eastus -
eastus2 -
francecentral - - - - - -
japaneast - - - - - - -
northcentralus -
norwayeast - - - - - - - -
southcentralus -
southindia - - - - - -
swedencentral
switzerlandnorth - - - - - - -
uksouth - - - - - -
westeurope - - - - - - - -
westus
westus3 -

Nota:

o1-mini está actualmente disponible para todos los clientes para su implementación estándar global.

Se concedió a los clientes acceso de implementación estándar (regional) a o1-mini como parte de la versión de acceso limitadoo1-preview. En este momento, no se amplía el acceso a las implementaciones estándar (regionales) de o1-mini.

Para obtener información sobre cómo Azure OpenAI controla las actualizaciones de la versión del modelo, consulte Versiones del modelo. Para obtener información sobre cómo ver y configurar las opciones de versión del modelo de las implementaciones GPT-3.5 Turbo, consulte Trabajar con modelos.

Ajuste de modelos

Nota:

Las regiones admitidas para el ajuste fino pueden variar si usa modelos de Azure OpenAI en un proyecto de Microsoft Foundry en comparación con fuera de un proyecto.

Id. de modelo Regiones de entrenamiento estándar Aprendizaje global Solicitud máxima (tokens) Datos de entrenamiento (hasta) Modality
gpt-4o-mini
2024-07-18
Centro-Norte de EE. UU
Centro de Suecia
Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 65,536
Octubre de 2023 Conversión de texto en texto
gpt-4o
(2024-08-06)
Este de EE. UU. 2
Centro-Norte de EE. UU
Centro de Suecia
Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 65,536
Octubre de 2023 Texto y visión a texto
gpt-4.1
(2025-04-14)
Centro-Norte de EE. UU
Centro de Suecia
Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 65,536
Mayo de 2024 Texto y visión a texto
gpt-4.1-mini
(2025-04-14)
Centro-Norte de EE. UU
Centro de Suecia
Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 65,536
Mayo de 2024 Conversión de texto en texto
gpt-4.1-nano (2025-04-14) Centro-Norte de EE. UU
Centro de Suecia
Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 32.768
Mayo de 2024 Conversión de texto en texto
o4-mini
(2025-04-16)
Este de EE. UU. 2
Centro de Suecia
- Entrada: 128 000
Salida: 16 384
Longitud del contexto de ejemplo de entrenamiento: 65,536
Mayo de 2024 Conversión de texto en texto

Nota:

El entrenamiento global (en versión preliminar) proporciona un entrenamiento más asequible por token, pero no ofrece residencia de datos. Actualmente está disponible para los recursos de Azure OpenAI en las siguientes regiones:

  • Australia East
  • Sur de Brasil
  • Canada Central
  • Este de Canadá
  • East US
  • Región Este de EE.UU. 2
  • Centro de Francia
  • Centro-oeste de Alemania
  • Norte de Italia
  • Este de Japón (sin apoyo de visión)
  • Centro de Corea del Sur
  • Centro-norte de EE. UU.
  • Norway East
  • Poland Central (sin soporte para 4.1-nano)
  • Sudeste Asiático
  • Norte de Sudáfrica
  • Centro-sur de EE. UU.
  • South India
  • Centro de España
  • Centro de Suecia
  • Switzerland West
  • Norte de Suiza
  • UK South
  • West Europe
  • West US
  • Oeste de EE. UU. 3

Asistentes (versión preliminar)

Para Asistentes, se necesita una combinación de un modelo compatible y una región compatible. Algunas herramientas y funcionalidades requieren los modelos más recientes. Los siguientes modelos están disponibles en la API de asistentes, el SDK y Foundry. La tabla siguiente es para la implementación estándar. Para obtener información sobre la disponibilidad de unidades de procesamiento aprovisionada (PTU), consulte rendimiento aprovisionado. Los modelos y regiones enumerados se pueden usar con asistentes v1 y v2. Puede usar modelos estándar globales si se admiten en las siguientes regiones.

Región gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, 1106-Vista previa gpt-4, 0125-Preview gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
norwayeast - - - - - - - - - - -
southindia - - - - - - - - -
swedencentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Retirada del modelo

Para obtener la información más reciente sobre las retiradas de modelos, consulte la guía de retirada de modelos.

Nota:

Modelos Foundry vendidos directamente por Azure también incluyen todos los modelos de Azure OpenAI. Para obtener información sobre estos modelos, cambie a la colección de modelos openAI de Azure en la parte superior de este artículo.

Modelos de Black Forest Labs vendidos directamente por Azure

La colección Black Forest Labs (BFL) de modelos de generación de imágenes incluye FLUX.1 Kontext [pro] para la generación y edición en contexto y FLUX1.1 [pro] para la generación de texto a imagen.

Puede ejecutar estos modelos a través de la API de proveedor de servicios BFL y a través de los puntos de conexión de imágenes/generaciones e imágenes/ediciones.

Modelo Tipo y punto de conexión de API Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
FLUX.1-Kontext-pro Generación de imágenes
- Image API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
y
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API del proveedor de servicios BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagen (5000 tokens y 1 imagen)
- Salida: Una imagen
- Llamada a herramientas: No
- Formatos de respuesta: Imagen (PNG y JPG)
- Características clave: Coherencia de caracteres, edición avanzada
- Parámetros adicionales:(Solo api específica del proveedor)seed, aspect ratio, input_image, prompt_unsampling, , safety_toleranceoutput_format
- Estándar global (todas las regiones) Foundry, basado en hub
FLUX-1.1-pro Generación de imágenes
- Image API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API del proveedor de servicios BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5000 tokens y 1 imagen)
- Salida: Una imagen
- Llamada a herramientas: No
- Formatos de respuesta: Imagen (PNG y JPG)
- Características clave: Velocidad de inferencia rápida, fuerte adhesión a la petición, precios competitivos, generación escalable
- Parámetros adicionales:(Solo api específica del proveedor)width, height, prompt_unsampling, seed, , safety_toleranceoutput_format
- Estándar global (todas las regiones) Foundry, basado en hub
Modelo Tipo y punto de conexión de API Capabilities Tipo de implementación (disponibilidad de región)
FLUX.1-Kontext-pro Generación de imágenes
- Image API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations
y
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API del proveedor de servicios BFL: <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrada: texto e imagen (5000 tokens y 1 imagen)
- Salida: Una imagen
- Llamada a herramientas: No
- Formatos de respuesta: Imagen (PNG y JPG)
- Características clave: Coherencia de caracteres, edición avanzada
- Parámetros adicionales:(Solo api específica del proveedor)seed, aspect ratio, input_image, prompt_unsampling, , safety_toleranceoutput_format
- Estándar global (todas las regiones)
FLUX-1.1-pro Generación de imágenes
- Image API: https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API del proveedor de servicios BFL: <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrada: texto (5000 tokens y 1 imagen)
- Salida: Una imagen
- Llamada a herramientas: No
- Formatos de respuesta: Imagen (PNG y JPG)
- Características clave: Velocidad de inferencia rápida, fuerte adhesión a la petición, precios competitivos, generación escalable
- Parámetros adicionales:(Solo api específica del proveedor)width, height, prompt_unsampling, seed, , safety_toleranceoutput_format
- Estándar global (todas las regiones)

Consulte esta colección de modelos en el portal de Microsoft Foundry.

Modelos de cohere vendidos directamente por Azure

La familia de modelos de Cohere incluye varios modelos optimizados para distintos casos de uso, como finalizaciones de chat e incrustaciones. Los modelos de Cohere están optimizados para diversos casos de uso que incluyen el razonamiento, el resumen y la respuesta a preguntas.

Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
Cohere-command-a chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (8 182 tokens)
- Idiomas:en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones) Foundry, basado en hub
embed-v-4-0 embeddings - Entrada: texto (512 tokens) e imágenes (2MM píxeles)
- Salida: Vector (256, 512, 1024, 1536 dimensiones).
- Idiomas:en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar
- Estándar global (todas las regiones) Foundry, basado en hub
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
Cohere-command-a chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (8 182 tokens)
- Idiomas:en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones)
embed-v-4-0 embeddings - Entrada: texto (512 tokens) e imágenes (2MM píxeles)
- Salida: Vector (256, 512, 1024, 1536 dimensiones).
- Idiomas:en, fr, es, it, de, pt-br, ja, ko, zh-cn y ar
- Estándar global (todas las regiones)

Consulte la colección de modelos de Cohere en el portal de Foundry.

Modelos deepSeek vendidos directamente por Azure

La familia de modelos DeepSeek incluye DeepSeek-R1, que se destaca en las tareas de razonamiento mediante un proceso de entrenamiento paso a paso, como el lenguaje, el razonamiento científico y las tareas de codificación.

Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
DeepSeek-V3.1 chat-completion
(con contenido de razonamiento)
- Entrada: Texto (131 072 tokens)
- Salida: (131 072 tokens)
- Idiomas:en y zh
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones) Foundry, basado en hub
DeepSeek-R1-0528 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)
Foundry, basado en hub
DeepSeek-V3-0324 chat-completion - Entrada: Texto (131 072 tokens)
- Salida: (131 072 tokens)
- Idiomas:en y zh
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)
Foundry, basado en hub
DeepSeek-R1 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)
Foundry, basado en hub
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
DeepSeek-V3.1 chat-completion
(con contenido de razonamiento)
- Entrada: Texto (131 072 tokens)
- Salida: (131 072 tokens)
- Idiomas:en y zh
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones)
DeepSeek-R1-0528 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)
DeepSeek-V3-0324 chat-completion - Entrada: Texto (131 072 tokens)
- Salida: (131 072 tokens)
- Idiomas:en y zh
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)
DeepSeek-R1 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones)
- Aprovisionado global (todas las regiones)

Consulte esta colección de modelos en el portal de Foundry.

Modelos de Meta vendidos directamente por Azure

Los modelos y herramientas de Meta Llama son una colección de modelos de razonamiento de imágenes y texto de IA generativa previamente entrenados y optimizados. El intervalo de modelos de Meta escalados para incluir:

  • Pequeños modelos de lenguaje (SLM) como Base 1B y 3B y modelos de instrucción para la inferencia perimetral y en el dispositivo
  • Modelos de lenguaje grande de tamaño medio (LLM) como Base 7B, 8B y 70B y modelos de instrucción
  • Modelos de alto rendimiento como Meta Llama 3.1-405B Instruct para casos de uso de generación y destilación de datos sintéticos.
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imágenes (tokens de 1M)
- Salida: texto (tokens de 1M)
- Idiomas:ar, en, fr, de, hi, id, it, pt, es, tl, y thvi
- Llamada a herramientas: No
- Formatos de respuesta: Texto
- Estándar global (todas las regiones) Foundry, basado en hub
Llama-3.3-70B-Instruct chat-completion - Entrada: Texto (128000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en, de, fr, it, pt, hi, es y th
- Llamada a herramientas: No
- Formatos de respuesta: Texto
- Estándar global (todas las regiones) Foundry, basado en hub
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrada: texto e imágenes (tokens de 1M)
- Salida: texto (tokens de 1M)
- Idiomas:ar, en, fr, de, hi, id, it, pt, es, tl, y thvi
- Llamada a herramientas: No
- Formatos de respuesta: Texto
- Estándar global (todas las regiones)
Llama-3.3-70B-Instruct chat-completion - Entrada: Texto (128000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en, de, fr, it, pt, hi, es y th
- Llamada a herramientas: No
- Formatos de respuesta: Texto
- Estándar global (todas las regiones)

Consulte esta colección de modelos en el portal de Foundry. También puede encontrar varios modelos Meta disponibles desde asociados y comunidad.

Modelos de Microsoft vendidos directamente por Azure

Los modelos de Microsoft incluyen varios grupos de modelos, como Model Router, los modelos MAI, los modelos Phi, los modelos de IA sanitaria y mucho más. Consulte la colección de modelos de Microsoft en el portal de Foundry. También puede encontrar varios modelos de Microsoft disponibles en asociados y comunidad.

Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
model-router1 chat-completion Más detalles en Descripción general del modelo de enrutador.
- Entrada: texto, imagen
- Salida: texto (el número máximo de tokens de salida varía2)
Ventana de contexto: 200 0003
- Idiomas:en
- Estándar global (Este de EE. UU. 2, Centro de Suecia)
- Estándar de zona de datos4 (Este de EE. UU. 2, Centro de Suecia)
Foundry, basado en hub
MAI-DS-R1 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones) Foundry, basado en hub
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
model-router1 chat-completion Más detalles en Descripción general del modelo de enrutador.
- Entrada: texto, imagen
- Salida: texto (el número máximo de tokens de salida varía2)
Ventana de contexto: 200 0003
- Idiomas:en
- Estándar global (Este de EE. UU. 2, Centro de Suecia)
- Estándar de zona de datos4 (Este de EE. UU. 2, Centro de Suecia)
MAI-DS-R1 chat-completion
(con contenido de razonamiento)
- Entrada: texto (163 840 tokens)
- Salida: (163 840 tokens)
- Idiomas:en y zh
- Llamada a herramientas: No
- Formatos de respuesta: Texto.
- Estándar global (todas las regiones)

1Versión de modelo de enrutador2025-11-18. Las versiones anteriores (2025-08-07 y 2025-05-19) también están disponibles.

2El máximo de tokens de salida varía según los modelos subyacentes en el enrutador de modelos. Por ejemplo, 32 768 (GPT-4.1 series), 100 000 (o4-mini), 128 000 (gpt-5 reasoning models) y 16 384 (gpt-5-chat).

3 Lasventanas de contexto más grandes son compatibles con algunos de los modelos subyacentes del enrutador de modelos. Esto significa que una llamada API con un contexto mayor solo se realiza correctamente si el mensaje se enruta a uno de estos modelos. De lo contrario, se produce un error en la llamada.

4 La facturación de las implementaciones del enrutador del modelo Zona de Datos Estándar comienza no antes del 1 de noviembre de 2025.

Modelos mistrales vendidos directamente por Azure

Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
Mistral-Large-3 chat-completion - Entrada: texto, imagen
- Salida: texto
- Idiomas:en, fr, de, es, it, pt, nl, zh, ja, ko y ar
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (Oeste de EE. UU. 3) Fundición
mistral-document-ai-2505 Imagen a texto - Entrada: imágenes o páginas PDF (30 páginas, archivo PDF máximo de 30 MB)
- Salida: texto
- Idiomas:en
- Llamada de herramienta: no
- Formatos de respuesta: Text, JSON, Markdown
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU. y UE)
Fundición
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
Mistral-Large-3 chat-completion - Entrada: texto, imagen
- Salida: texto
- Idiomas:en, fr, de, es, it, pt, nl, zh, ja, ko y ar
- Activación de herramientas:
- Formatos de respuesta: Texto, JSON
- Estándar global (Oeste de EE. UU. 3)
mistral-document-ai-2505 Imagen a texto - Entrada: imágenes o páginas PDF (30 páginas, archivo PDF máximo de 30 MB)
- Salida: texto
- Idiomas:en
- Llamada de herramienta: no
- Formatos de respuesta: Text, JSON, Markdown
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU. y UE)

Consulte la colección de modelos Mistral en el portal de Foundry. También puede encontrar varios modelos Mistral disponibles desde asociados y comunidad.

Modelos xAI vendidos directamente por Azure

Los modelos Grok de xAI en Foundry Models incluyen un conjunto diverso de modelos diseñados para destacar en varios dominios empresariales con diferentes funcionalidades y puntos de precio, entre los que se incluyen:

  • Grok 3, un modelo sin capacidad de razonamiento preentrenado por el centro de datos Colossus, está adaptado para casos de uso empresariales, como la extracción de datos, la codificación y el resumen de texto, con capacidades excepcionales para seguir instrucciones. Admite una ventana de contexto de token de 131 072, lo que le permite controlar entradas extensas al tiempo que mantiene la coherencia y la profundidad, y es capaz de dibujar conexiones entre dominios y lenguajes.

  • Grok 3 Mini es un modelo de razonamiento ligero entrenado para abordar problemas de ciencia en tiempo de prueba, codificación, matemático y profundo. También admite una ventana de contexto de token de 131 072 para comprender los códigos base y los documentos empresariales, y destaca por el uso de herramientas para resolver problemas lógicos complejos en entornos nuevos, ofreciendo seguimientos de razonamiento sin procesar para la inspección de usuarios con presupuestos de pensamiento ajustables.

  • Grok Code Fast 1, un modelo de razonamiento rápido y eficaz diseñado para su uso en aplicaciones de codificación agente. Se ha preentrenado con una mezcla de datos enfocada en la codificación y luego se ha sometido a un entrenamiento posterior con demostraciones de diversas tareas de codificación y uso de herramientas, así como demostraciones de comportamientos correctos de denegación basados en la política de seguridad de xAI. El registro es necesario para acceder al modelo grok-code-fast-1.

  • Grok 4 Fast, un modelo de lenguaje optimizado para eficiencia que ofrece funcionalidades de razonamiento casi Grok 4 con una latencia y un costo significativamente más bajos, y puede omitir el razonamiento por completo para aplicaciones ultra rápidas. Está entrenado para el uso seguro y eficaz de herramientas, con comportamientos de denegación integrados, una directiva de sistema de seguridad fija, y filtros de entrada para evitar el uso indebido.

  • Grok 4 es el último modelo de razonamiento de xAI con capacidades avanzadas de razonamiento y uso de herramientas, lo que le permite lograr un nuevo rendimiento de última generación en pruebas académicas y del sector desafiantes. El registro es necesario para acceder al modelo grok-4.

Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región) Tipo de proyecto
grok-4 chat-completion - Entrada: texto, imagen (256 000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones) Foundry, basado en hub
grok-4-fast-reasoning chat-completion - Entrada: texto, imagen (2000 000 tokens)
- Salida: texto (2000 000 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
Foundry, basado en hub
grok-4-fast-non-reasoning chat-completion - Entrada: texto, imagen (2000 000 tokens)
- Salida: texto (2000 000 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
Foundry, basado en hub
grok-code-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones) Foundry, basado en hub
grok-3 chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (131 072 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
Foundry, basado en hub
grok-3-mini chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (131 072 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
Foundry, basado en hub
Modelo Tipo Capabilities Tipo de implementación (disponibilidad de región)
grok-4 chat-completion - Entrada: texto, imagen (256 000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
grok-4-fast-reasoning chat-completion - Entrada: texto, imagen (2000 000 tokens)
- Salida: texto (2000 000 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
grok-4-fast-non-reasoning chat-completion - Entrada: texto, imagen (2000 000 tokens)
- Salida: texto (2000 000 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
grok-code-fast-1 chat-completion - Entrada: texto (256.000 tokens)
- Salida: Texto (8192 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
grok-3 chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (131 072 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)
grok-3-mini chat-completion - Entrada: Texto (131 072 tokens)
- Salida: texto (131 072 tokens)
- Idiomas:en
- Llamada a herramientas:
- Formatos de respuesta: texto
- Estándar global (todas las regiones)
- Estándar de zona de datos (EE. UU.)

Consulte la colección de modelos xAI en el portal de Foundry.

Disponibilidad de región de modelo por tipo de implementación

Foundry Models ofrece opciones para la estructura de hospedaje que se ajusta a sus patrones de uso y negocio. El servicio ofrece dos tipos principales de implementación:

  • Estándar tiene una opción de implementación global, enrutando el tráfico globalmente para proporcionar un mayor rendimiento.
  • Aprovisionado: también tiene una opción de implementación global, lo que le permite comprar e implementar unidades de rendimiento aprovisionadas en toda la infraestructura global de Azure.

Todas las implementaciones realizan las mismas operaciones de inferencia, pero la facturación, la escala y el rendimiento difieren. Para obtener más información sobre los tipos de implementación, vea Tipos de implementación en modelos de Foundry.

Disponibilidad del modelo estándar global

Region DeepSeek-R1-0528 DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-V3.1 FLUX.1-Kontext-pro FLUX-1.1-pro grok-4 grok-4-fast-reasoning grok-4-fast-non-reasoning grok-code-fast-1 grok-3 grok-3-mini Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-DS-R1 mistral-document-ai-2505
australiaeast
brazilsouth
canadaeast
eastus
eastus2
francecentral
germanywestcentral
italynorth
japaneast
koreacentral
northcentralus
norwayeast
polandcentral
southafricanorth
southcentralus
southindia
spaincentral
swedencentral
switzerlandnorth
switzerlandwest
uaenorth
uksouth
westeurope
westus
westus3

Modelos abiertos y personalizados

El catálogo de modelos ofrece una mayor selección de modelos de una gama más amplia de proveedores. Para estos modelos, no puede usar la opción para la implementación estándar en recursos de Microsoft Foundry, donde se proporcionan modelos como API. En su lugar, para implementar estos modelos, es posible que tenga que hospedarlos en la infraestructura, crear un centro de inteligencia artificial y proporcionar la cuota de proceso subyacente para hospedar los modelos.

Además, estos modelos pueden estar protegidos por ip o acceso abierto. En ambos casos, tiene que desplegarlos en las ofertas de computación administradas en Foundry. Para empezar, consulte Cómo hacerlo: Implementación en la computación administrada.