Introducción a la implementación de los modelos de Microsoft Foundry

Microsoft Foundry Models es el centro para detectar e implementar una amplia gama de modelos de inteligencia artificial para aplicaciones de IA generativas. Para que un modelo esté disponible para las solicitudes de inferencia, debes implementarlo. Foundry ofrece dos opciones de implementación en función del tipo de modelo y sus necesidades de infraestructura.

Sugerencia

No siempre es necesario crear un despliegue. Con los modelos instantáneos (versión preliminar), llame a los modelos admitidos por su nombre y empiece a ejecutar la inferencia inmediatamente, sin necesidad de implementación.

Opciones de implementación

Foundry proporciona dos opciones de implementación:

Implementación estándar en recursos de Foundry — Para los modelos de Foundry, incluidos modelos de Foundry vendidos por Azure (también conocidos como modelos directos de Azure, o ADM) y determinados modelos de asociados y de la comunidad. Esta opción es la ruta de implementación preferida y más capaz.
Implementación administrada de cómputo (versión preliminar) — Disponible para todos los modelos de software de código abierto (OSS), incluidos los modelos de socios y de la comunidad, así como los modelos personalizados.

El portal de Foundry selecciona automáticamente la opción de implementación adecuada en función del modelo que elija.

	Implementación estándar en recursos de Foundry	Cómputo administrado
Modelos	Modelos de ADM (Azure OpenAI + modelos de partners facturados a través de Azure) y seleccione Modelos de partners y de la comunidad.	Otros modelos en el catálogo de modelos de partners y modelos personalizados. Por ejemplo, modelos de Hugging Face, NIMs NVIDIA, modelos del sector y Databricks.
Facturación	Uso de tokens o unidades de rendimiento aprovisionadas (PTU)	Por hora por SKU de acelerador
Procesamiento de datos	Regional, zona de datos o global	Solo regional
Filtrado de contenido	Integrado y personalizable	Mediante las API de seguridad de contenido de Azure AI

Implementación estándar en recursos de Foundry

La implementación estándar en los recursos de Foundry es la opción de implementación preferida en Foundry. Admite la gama más amplia de funcionalidades y tipos de implementación.

¿Qué modelos usan la implementación estándar?

Todos los modelos de Foundry, incluidos los Foundry Models vendidos por Azure y determinados modelos de partners y de la comunidad, utilizan la implementación estándar. Los modelos de Foundry comercializados por Azure incluyen todos los modelos de Azure OpenAI y determinados modelos de los principales proveedores, que se facturan a través de su suscripción de Azure, están cubiertos por los acuerdos de nivel de servicio de Azure y cuentan con el respaldo de Microsoft. Seleccione Modelos de asociados y comunidad que usan la implementación estándar, entre los que se incluyen modelos antrópicos y modelos específicos de asociados como Mistral, Cohere y Meta.

Capacidades

La implementación estándar admite:

Varios tipos de implementación : Estándar global, Estándar de zona de datos, Estándar regional, Aprovisionado, Batch, etc. Cada tipo controla dónde se procesan los datos y cómo se paga. Para obtener más información, consulte Tipos de implementación para modelos de Microsoft Foundry.
Flexibilidad de procesamiento de datos : elija regional, zona de datos (EE. UU. o UE) o procesamiento global en función de sus requisitos de cumplimiento.
Filtrado de contenido : filtros integrados de seguridad de contenido de Azure AI con configuraciones personalizables.
Autenticación sin claves : Id. de Microsoft Entra (recomendado) y autenticación basada en claves.
Redes privadas : integración de red virtual para el acceso seguro.
Rendimiento aprovisionado: capacidad reservada con PTU para un rendimiento predecible y de baja latencia. Para obtener detalles, consulte Rendimiento aprovisionado.

Requisitos de recursos

La implementación estándar está disponible en:

Recursos de Foundry — El tipo de recurso principal para los nuevos proyectos de Foundry. No se requiere ningún centro de INTELIGENCIA ARTIFICIAL.
Recursos de Azure OpenAI : si usa recursos de Azure OpenAI, el catálogo de modelos muestra solo los modelos de Azure OpenAI para la implementación. Actualice a un recurso de Foundry para acceder al conjunto completo de Modelos de Foundry.

Para empezar a trabajar con la implementación, consulte Implementación de modelos de Microsoft Foundry en el portal de Foundry o Implementación de modelos mediante la CLI de Azure y Bicep.

Implementación de cómputo administrado (versión preliminar)

Nota:

El proceso administrado en Foundry se encuentra actualmente en versión preliminar pública y se requiere el registro para usarlo. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

La capacidad de proceso administrada en Foundry (versión preliminar) es una plataforma como servicio (PaaS) de GPU administrada que hospeda modelos de código abierto y modelos con ponderaciones personalizadas sobre capacidad dedicada de GPU. Puede acceder a las implementaciones de computación administradas a través del mismo endpoint del proyecto de Foundry que el de otros tipos de implementación, sin máquinas virtuales, clústeres ni entornos de ejecución de servicio que gestionar. Foundry dimensiona el despliegue, aprovisiona los aceleradores y mantiene el entorno de ejecución actualizado con los parches.

Importante

El cómputo administrado admite modelos de código abierto, de socios, del sector y personalizados. Las implementaciones administradas de cómputo se ofrecen a través del punto de conexión unificado del proyecto Foundry, con la misma autenticación, red e interfaz del SDK.

¿Qué modelos utilizan recursos computacionales gestionados?

Entre los ejemplos de colecciones de modelos que requieren proceso administrado se incluyen:

Hugging Face
Algunos metamodelos
Algunos modelos mistrales
Microservicios de inferencia de NVIDIA (NIM)
Modelos del sector (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
Databricks
Modelos personalizados

El catálogo de Microsoft Foundry incluye más de 10 000 modelos de código abierto y de socios, y cada mes se publican aproximadamente 50 modelos nuevos.

Capacidades

El proceso administrado (versión preliminar) admite:

Punto de conexión y autenticación de Unified Foundry — Use el mismo punto de conexión del proyecto, las claves de API, Microsoft Entra ID y las redes privadas que en las implementaciones de pago por token y con rendimiento aprovisionado. Las rutas de inferencia usan <endpoint>/managed-deployments/<deployment-name>/. Los entornos de ejecución compatibles con chat-completions también funcionan en la ruta estándar /openai/v1/ con el SDK de OpenAI.
Dimensionamiento de instancias de modelo — Las implementaciones se dimensionan según criterios centrados en el modelo. No es necesario elegir SKU de máquina virtual, ya que Foundry elige GPU por instancia en función del tamaño del modelo, la arquitectura, la longitud del contexto y si la carga de trabajo está optimizada para latencia o rendimiento.
Entornos de ejecución de inferencia optimizados — contenedores de vLLM, SGLang y NVIDIA NIM seleccionados por Microsoft, con procesamiento por lotes continuo, decodificación especulativa, paralelismo de tensores e intercambio en caliente de LoRA.
Familias de aceleradores : A100 (80 GB), H100 (80 GB), H200 (141 GB) y MI300X.
Escalado automático y escala a cero — Ajuste la escala automáticamente según el tráfico en tiempo real o ajústela manualmente. Configure un tiempo de espera por inactividad para que el despliegue se reduzca a cero cuando no haya tráfico, de modo que la facturación se detenga de inmediato.
Entornos de ejecución administrados por Microsoft — Microsoft se encarga de los entornos de ejecución de servicio, las imágenes de contenedor base y los parches de seguridad. Las actualizaciones se aplican automáticamente a las implementaciones activas.
Métricas de observabilidad : cada implementación emite el recuento de llamadas API por código de estado y percentiles de tiempo de respuesta. Los modelos de finalización de chat también emiten recuentos de tokens de entrada y salida, percentiles de tiempo a primer token (TTFT) y percentiles totales de tiempo de respuesta, agrupados por tiempo.

Facturación y cuota

La facturación de la computación administrada se realiza por hora para cada SKU de acelerador, tomando el rendimiento por GPU como unidad de facturación subyacente. El escalado automático y el escalado a cero ajustan el coste al tráfico real para que la facturación se detenga inmediatamente cuando las instancias se reducen.

La cuota se concede por cada SKU de acelerador y por región mediante el proceso de cuota de Foundry y es independiente de la cuota de máquinas virtuales de Azure. Las máquinas virtuales de Azure son una oferta de infraestructura como servicio (IaaS) con SKU regionales; el cómputo administrado es una oferta PaaS que se basa principalmente en el procesamiento Global y de Zona de datos. La cuota de máquina virtual Azure existente no se puede aplicar a una implementación de proceso administrada.

La capacidad de cómputo administrada está actualmente disponible para su implementación global. Para obtener estimaciones de tarifas, consulte la calculadora de precios Azure.

Comenzar

Implementación de modelos de código abierto con proceso administrado

Comparación de opciones de implementación

Use la implementación estándar en los recursos de Foundry siempre que sea posible. En la tabla siguiente se comparan las funcionalidades entre las dos opciones de implementación:

Capacidad	Implementación estándar en recursos de Foundry	Cómputo administrado
¿Qué modelos se pueden implementar?	Todos los modelos de Foundry, incluidos los modelos de Foundry vendidos por Azure y determinados modelos de socios y de la comunidad	Modelos de código abierto y asociados del catálogo de modelos, NVIDIA NIM y modelos del sector
Recurso de implementación	Recurso de Foundry	Proyecto de fundición
Requiere AI Hub	No	No
Opciones de procesamiento de datos	Regional, zona de datos, global	Global
Redes privadas	Sí	Sí
Filtrado de contenido	Integrado y personalizable	No disponible en versión preliminar pública
Autenticación sin claves	Sí (Microsoft Entra ID y basado en claves)	Sí (Microsoft Entra ID y basado en claves)
Facturación	Uso de tokens o unidades de rendimiento aprovisionadas	Por hora, por SKU de acelerador

Sugerencia

Para obtener información detallada sobre los precios, consulte Plan y administrar los costos de Microsoft Foundry.

Comentarios

Resultoulle útil esta páxina?

Last updated on 2026-06-03

Introducción a la implementación de los modelos de Microsoft Foundry

Opciones de implementación

Implementación estándar en recursos de Foundry

¿Qué modelos usan la implementación estándar?

Capacidades

Requisitos de recursos

Implementación de cómputo administrado (versión preliminar)

¿Qué modelos utilizan recursos computacionales gestionados?

Capacidades

Facturación y cuota

Comenzar

Comparación de opciones de implementación

Contenido relacionado

Comentarios

Recursos adicionais