O que é o Windows ML?

O Windows ML é a framework unificada e de alto desempenho para inferência de IA local para Windows, alimentada pelo ONNX Runtime. Com o Windows ML, pode executar modelos de IA localmente e acelerar a inferência em NPUs, GPUs e CPUs através de fornecedores de execução opcionais que o Windows gere e mantém atualizados. Podes usar modelos do PyTorch, TensorFlow/Keras, TFLite, scikit-learn e outros frameworks com Windows ML.

Um diagrama que ilustra um modelo ONNX a passar por Windows ML para depois alcançar NPUs, GPUs e CPUs.

Principais benefícios

O Windows ML facilita a integração da inferência de IA em qualquer aplicação Windows:

  • Execute IA no dispositivo — os modelos correm localmente no hardware do utilizador, mantendo os dados privados, eliminando custos na cloud e funcionando sem ligação à internet.
  • Use modelos que já tenha — traga modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face e mais.
  • Aceleração de hardware, facilitada pelo Windows — O Windows ML permite-lhe aceder a NPUs, GPUs e CPUs específicas para IHV através de fornecedores de execução que o Windows instala e mantém atualizados via Windows Update — sem necessidade de incluir os fornecedores de execução na sua aplicação.
  • Um runtime, muitas apps — opcionalmente, use o Windows ML como um componente do sistema partilhado, para que a sua app permaneça pequena e todas as apps no dispositivo partilhem o mesmo runtime atualizado, em vez de cada app incluir sua própria cópia.
  • Desempenho de excelência — O Windows ML oferece um desempenho extremo em NPUs e GPUs, ao nível de SDKs dedicados como o TensorRT para RTX ou o AI Engine Direct da Qualcomm.

Porque usar o Windows ML em vez do Microsoft ORT?

O Windows ML é a cópia suportada e mantida pelo Windows do ONNX Runtime (ORT), disponível como cópia a nível de sistema ou autónoma:

  • Mesmas APIs ONNX — sem alterações ao teu código ONNX Runtime existente
  • Suportado por Windows — suportado e mantido pela equipa do Windows
  • Suporte abrangente de hardware — funciona em PCs com Windows (x64 e ARM64) e Windows Server com qualquer configuração de hardware
  • Opção de tamanho de aplicação mais pequeno — escolha a implementação dependente do framework e partilhe o tempo de execução entre as apps em vez de agrupar a sua própria cópia
  • Atualizações opcionais de evergreen — escolha a implementação dependente do framework e os seus utilizadores obtêm sempre o tempo de execução mais recente via Windows Update

Além disso, o Windows ML permite que a sua aplicação adquira dinamicamente os mais recentes fornecedores de execução para acelerar os seus modelos de IA, sem ter de transportar os EPs na sua aplicação e criar builds separadas para hardware diferente.

Veja Comece com o Windows ML para experimentar por si mesmo!

Aceleração de hardware em NPU, GPU e CPU

O Windows ML permite-lhe aceder a fornecedores de execução que podem acelerar a inferência entre as três classes de silício presentes nos PCs Windows modernos:

  • NPU — inferência sustentada e eficiente em bateria, com as NPUs mais potentes disponíveis em PCs Copilot+
  • GPU — cargas de trabalho de alto rendimento, como imagem, vídeo e IA generativa, que geralmente fornecem o máximo desempenho em GPUs discretas
  • CPU — solução universal de contingência, além de acelerações de CPU otimizadas para IHV

Para o mapeamento completo do silício para EP, requisitos de controladores e opções de aquisição de EP, consulte Acelerar modelos de IA.

Requisitos do sistema

  • OS: Versão do Windows que Windows App SDK suporta
  • Arquitetura: x64 ou ARM64
  • Hardware: Qualquer configuração de PC (CPUs, GPUs integradas/discretas, NPUs)

Observação

O suporte para CPU e GPU (via DirectML) está disponível em todas as versões suportadas do Windows. Os fornecedores de execução otimizados para hardware para NPUs e hardware específico de GPU requerem Windows 11 versão 24H2 (build 26100) ou superior. Para detalhes, veja Fornecedores de execução de Aprendizagem Automática do Windows.

Otimização do desempenho

A versão mais recente do Windows ML trabalha diretamente com fornecedores dedicados de execução para GPUs e NPUs, oferecendo um desempenho extremo que está ao nível dos SDKs dedicados do passado, como o TensorRT para RTX, AI Engine Direct e a Intel Extension for PyTorch. Desenvolvemos o Windows ML para ter um desempenho de GPU e NPU de excelência, sem exigir que a sua aplicação distribua SDKs específicos para IHV.

Convertendo modelos para ONNX

Podes converter modelos de outros formatos para ONNX para os usares com Windows ML. Consulte o Foundry Toolkit para a documentação do Visual Studio Code sobre como converter modelos para o formato ONNX para saber mais. Consulte também os tutoriais do ONNX Runtime para obter mais informações sobre como converter modelos PyTorch, TensorFlow e Hugging Face para ONNX.

Distribuição dos modelos

O Windows ML oferece opções flexíveis para distribuir modelos de IA:

  • Partilhe modelos entre aplicações - Descarregue e partilhe modelos dinamicamente entre aplicações a partir de qualquer CDN sem agrupar ficheiros grandes
  • Modelos locais - Inclua arquivos de modelo diretamente no pacote do aplicativo

Integração com o ecossistema de IA do Windows

O Windows ML serve de base para a plataforma mais ampla de IA do Windows:

  • Windows APIs de IA - Modelos incorporados para tarefas comuns
  • Foundry Local - Modelos de IA prontos a usar
  • Custom models - Acesso direto à API Windows ML para cenários especializados

Fornecer comentários

Encontrou um problema ou tem sugestões? Pesquise ou crie problemas no Windows App SDK GitHub.

Próximos passos