¿Qué es Windows ML?

Windows ML es el marco de inferencia de IA local unificado y de alto rendimiento para Windows, impulsado por ONNX Runtime. Con Windows ML, puede ejecutar modelos de inteligencia artificial localmente y acelerar la inferencia en NPUs, GPU y CPU a través de proveedores de ejecución opcionales que Windows administra y mantiene actualizado. Puede usar modelos de PyTorch, TensorFlow/Keras, TFLite, scikit-learn y otros marcos con Windows ML.

Diagrama que ilustra un modelo ONNX que pasa por Windows ML para después acceder a los NPU, GPU y CPU.

Ventajas clave

Windows ML facilita la inferencia de IA en cualquier aplicación de Windows:

  • Ejecución de inteligencia artificial en el dispositivo : los modelos se ejecutan localmente en el hardware del usuario, manteniendo los datos privados, eliminando los costos de la nube y trabajando sin conexión a Internet.
  • Use los modelos que ya tiene : traiga modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face, etc.
  • Aceleración de hardware, facilitado por Windows : Windows ML permite acceder a NPUs, GPU y CPU específicas de IHV a través de proveedores de ejecución que Windows instala y mantiene actualizado a través de Windows Update, no es necesario agrupar los proveedores de ejecución en la aplicación.
  • Un entorno de ejecución, muchas aplicaciones: opcionalmente, usa Windows ML como un componente de sistema compartido, por lo que tu aplicación permanece pequeña y todas las aplicaciones del dispositivo comparten el mismo entorno de ejecución actualizado, en lugar de que cada aplicación incluya su propia copia.
  • Rendimiento líder en su clase — Windows ML ofrece un rendimiento al máximo nivel en NPUs y GPUs, a la par de SDK dedicados como TensorRT para RTX o AI Engine Direct de Qualcomm.

¿Por qué usar Windows ML en lugar de Microsoft ORT?

Windows ML es la copia de ONNX Runtime (ORT) compatible y mantenida por Windows, disponible como una versión para todo el sistema o como una instalación independiente.

  • Mismas API de ONNX : no hay cambios en el código en tiempo de ejecución de ONNX existente.
  • Compatible con Windows: compatible y mantenida por el equipo de Windows
  • Amplia compatibilidad con hardware : se ejecuta en equipos Windows (x64 y ARM64) y Windows Server con cualquier configuración de hardware.
  • Tamaño de aplicación más pequeño opcional : elija la implementación dependiente del marco y comparta el tiempo de ejecución entre aplicaciones en lugar de agrupar su propia copia.
  • Actualizaciones constantes opcionales : elija la implementación dependiente del marco y los usuarios siempre obtengan el tiempo de ejecución más reciente a través de Windows Update.

Además, Windows ML permite a su aplicación adquirir dinámicamente los proveedores de ejecución más recientes para acelerar sus modelos de IA, sin llevar los proveedores de ejecución en su aplicación y sin crear compilaciones independientes para diferentes hardware.

Consulte Introducción a Windows ML para probarlo usted mismo.

Aceleración de hardware en NPU, GPU y CPU

Windows ML le permite acceder a proveedores de ejecución que pueden acelerar la inferencia entre las tres clases de silicio presentes en equipos Windows modernos:

  • NPU — inferencia sostenida en el dispositivo, eficiente en el uso de la batería, con las NPUs más potentes disponibles en PC con Copilot+
  • GPU : cargas de trabajo de alto rendimiento, como la imagen, el vídeo y la inteligencia artificial generativa, lo que generalmente proporcionará un rendimiento máximo en GPU discretas.
  • CPU — retroceso universal, además de aceleraciones de CPU optimizadas para IHV

Para la asignación completa de silicon a EP, requisitos de controladores y opciones de adquisición de EP, consulte Accelerate AI models (Acelera los modelos de IA).

Requisitos del sistema

  • OS: versión de Windows que Windows App SDK admite
  • Arquitectura: x64 o ARM64
  • Hardware: cualquier configuración de PC (CPU, GPU integradas o discretas, NPUs)

Nota:

La compatibilidad con CPU y GPU (a través de DirectML) está disponible en todas las versiones de Windows compatibles. Los proveedores de ejecución optimizados para hardware para NPUs y hardware de GPU específico requieren Windows 11 versión 24H2 (compilación 26100) o superior. Para obtener más información, consulte Proveedores de ejecución de Windows ML.

Optimización del rendimiento

La versión más reciente de Windows ML funciona directamente con proveedores de ejecución dedicados para GPU y NPU, lo que proporciona un rendimiento directo al nivel del hardware comparable con los SDK dedicados del pasado, como TensorRT para RTX, AI Engine Direct y la Extensión de Intel para PyTorch. Hemos diseñado Windows ML para tener el mejor rendimiento de GPU y NPU de clase, sin necesidad de que la aplicación distribuya SDK específicos de IHV.

Conversión de modelos a ONNX

Puede convertir modelos de otros formatos a ONNX para poder usarlos con Windows ML. Consulte los documentos de Foundry Toolkit para Visual Studio Code sobre cómo convertir modelos al formato ONNX para obtener más información. Consulte también los tutoriales del entorno de ejecución de ONNX para obtener más información sobre la conversión de modelos PyTorch, TensorFlow y Hugging Face a ONNX.

Distribución de modelos

Windows ML proporciona opciones flexibles para distribuir modelos de IA:

  • Uso compartido de modelos entre aplicaciones: descargue y comparta modelos dinámicamente entre aplicaciones desde cualquier red CDN sin empaquetar archivos grandes
  • Modelos locales : incluir archivos de modelo directamente en el paquete de aplicación

Integración con Windows ecosistema de IA

Windows ML sirve como base para la plataforma de inteligencia artificial Windows más amplia:

  • Windows API de IA: modelos integrados para tareas comunes
  • Foundry Local : modelos de IA listos para usar
  • Modelos personalizados: acceso directo a la API de ML de Windows para escenarios avanzados

Proporcionar comentarios

¿Encontró un problema o tiene sugerencias? Busque o cree problemas en el Windows App SDK GitHub.

Pasos siguientes