Qu’est-ce que Windows ML ?

Windows ML est l’infrastructure d’inférence d’IA locale unifiée et hautes performances pour Windows, alimentée par ONNX Runtime. Avec Windows ML, vous pouvez exécuter des modèles IA localement et accélérer l’inférence sur des NPU, des GPU et des CPU grâce à des fournisseurs d’exécution facultatifs que Windows gère et maintient à jour. Vous pouvez utiliser des modèles à partir de PyTorch, TensorFlow/Keras, TFLite, scikit-learn et d’autres frameworks avec Windows ML.

diagramme illustrant un modèle ONNX passant par Windows ML pour ensuite atteindre les NPU, GPU et CPU.

Principaux avantages

Windows ML facilite l’inférence de l’IA dans n’importe quelle application Windows :

Exécuter l’IA sur appareil : les modèles s’exécutent localement sur le matériel de l’utilisateur, en conservant les données privées, en éliminant les coûts du cloud et en travaillant sans connexion Internet.
Utilisez des modèles que vous avez déjà : apportez des modèles à partir de PyTorch, TensorFlow, scikit-learn, Hugging Face, etc.
Accélération matérielle, facilitée par Windows : Windows ML vous permet d’accéder aux processeurs, gpu et processeurs spécifiques à IHV via des fournisseurs d’exécution que Windows installe et conserve à jour via Windows Update, il n’est pas nécessaire de regrouper les fournisseurs d’exécution dans votre application.
Un environnement d'exécution, de nombreuses applications — vous pouvez éventuellement utiliser Windows ML comme composant système partagé, afin que votre application reste légère et que toutes les applications sur l’appareil partagent le même environnement d'exécution à jour, plutôt que chaque application regroupe sa propre copie.
Performances de premier ordre : Windows ML offre des performances optimales à même le matériel sur des GPU et des NPU, à la hauteur des SDK dédiés tels que TensorRT pour RTX ou l'AI Engine Direct de Qualcomm.

Pourquoi utiliser Windows ML au lieu de Microsoft ORT ?

Windows ML est la copie prise en charge par Windows et gérée d’ONNX Runtime (ORT), disponible en tant que copie à l’échelle du système ou autonome :

Mêmes API ONNX : aucune modification de votre code d’exécution ONNX existant
Prise en charge par Windows : prise en charge et gérée par l’équipe Windows
Prise en charge matérielle étendue : s’exécute sur des PC Windows (x64 et ARM64) et Windows Server avec n’importe quelle configuration matérielle
Taille d’application plus petite facultative : choisissez le déploiement dépendant de l’infrastructure et partagez le runtime entre les applications au lieu de regrouper votre propre copie
Mises à jour persistantes facultatives : choisissez le déploiement dépendant du framework et vos utilisateurs obtiennent toujours le dernier runtime via Windows Update

En outre, Windows ML permet à votre application d’acquérir dynamiquement les derniers fournisseurs d’exécution pour accélérer vos modèles IA, sans transporter les EPs dans votre application et créer des builds distinctes pour différents matériels.

Consultez Bien démarrer avec Windows ML pour essayer vous-même !

Accélération matérielle sur NPU, GPU et PROCESSEUR

Windows ML vous permet d’accéder aux fournisseurs d’exécution qui peuvent accélérer l’inférence sur les trois classes de silicium présentes dans les PC Windows modernes :

NPU : inférence efficace en énergie, prolongée sur l'appareil, avec les NPUs les plus puissants disponibles sur les Copilot+ PC
GPU : charges de travail à débit élevé, telles que l’image, la vidéo et l’IA générative, qui fournissent généralement des performances maximales sur des GPU discrets
CPU : fallback universel, ainsi que les accélérations CPU optimisées par IHV

Pour obtenir le mappage complet de la relation entre le silicium et l'EP, les exigences des pilotes et les différentes options d'approvisionnement en EP, consultez Accélération des modèles d'IA.

Configuration système requise

OS : version de Windows que Windows App SDK prend en charge
Architecture : x64 ou ARM64
Matériel : n’importe quelle configuration de PC (processeurs, GPU intégrés/discrets, npus)

Note

La prise en charge du processeur et du GPU (via DirectML) est disponible sur toutes les versions de Windows prises en charge. Les fournisseurs d’exécution optimisés matériellement pour les serveurs npus et le matériel GPU spécifique nécessitent Windows 11 version 24H2 (build 26100) ou une version ultérieure. Pour plus d’informations, consultez les fournisseurs d’exécution Windows ML.

Optimisation des performances

La dernière version de Windows ML fonctionne directement avec des fournisseurs d'exécution dédiés pour les GPU et les processeurs neuronaux, offrant des performances de bas niveau comparables aux SDK dédiés précédents tels que TensorRT pour RTX, AI Engine Direct et l'Extension d'Intel pour PyTorch. Nous avons conçu Windows ML pour avoir des performances GPU et NPU optimales, sans exiger que votre application distribue des kits SDK spécifiques à IHV.

Conversion de modèles en ONNX

Vous pouvez convertir des modèles d’autres formats en ONNX afin de pouvoir les utiliser avec Windows ML. Consultez la documentation de Foundry Toolkit pour Visual Studio Code sur la façon de convertir des modèles au format ONNX pour en savoir plus. Consultez également les tutoriels ONNX Runtime pour plus d’informations sur la conversion des modèles PyTorch, TensorFlow et Hugging Face en ONNX.

Distribution de modèles

Windows ML fournit des options flexibles pour distribuer des modèles IA :

Partager des modèles entre les applications : télécharger et partager dynamiquement des modèles entre des applications à partir d’un CDN sans regrouper de fichiers volumineux
Modèles locaux - Inclure des fichiers de modèle directement dans votre package d’application

Intégration avec l'écosystème d'IA de Windows

Windows ML sert de base pour l’ensemble de la plateforme IA Windows :

Windows API IA - Modèles intégrés pour les tâches courantes
Foundry Local - Modèles IA prêts à l’emploi
Modèles Personnalisés - Accès direct à l’API Windows ML pour les scénarios avancés

Formulation de commentaires

Vous avez trouvé un problème ou avez des suggestions ? Recherchez ou créez des problèmes sur le Windows App SDK GitHub.

Étapes suivantes

Exécuter des modèles IA - Installer Windows ML et exécuter votre premier modèle ONNX
Accélérer les modèles d'IA - Ajouter des fournisseurs d’exécution de NPU, de GPU ou de CPU pour accélérer l’inférence
Rechercher ou entraîner des modèles - Rechercher des modèles compatibles avec Windows ML

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-24