Introdução ao DirectML

Artigo
05/21/2024

Emparelhar o DirectML com o ONNX Runtime geralmente é a maneira mais simples para muitos desenvolvedores trazerem IA acelerada por hardware para seus usuários em escala. Estes três passos são um guia geral para usar este poderoso combo.

1. Converter

O formato ONNX permite que você aproveite o ONNX Runtime com DirectML, que fornece recursos de hardware cruzado.

Para converter seu modelo para o formato ONNX, você pode utilizar ONNXMLTools ou Olive.

optimizers

Depois de ter um modelo .onnx, aproveite o Olive powered by DirectML para otimizar seu modelo. Você verá melhorias de desempenho impressionantes que podem ser implantadas em todo o ecossistema de hardware do Windows.

3. Integrar

Quando seu modelo estiver pronto, é hora de trazer inferência acelerada por hardware para seu aplicativo com o ONNX Runtime e o DirectML. Para modelos de IA generativa, recomendamos usar a API ONNX Runtime Generate()

Criamos alguns exemplos para mostrar como você pode usar o DirectML e o ONNX Runtime:

Phi-3-mini
LLMs (modelos de linguagem grandes)
Difusão Estável
Transferência de estilo
Opções de inferência

DirectML e PyTorch

O back-end DirectML para Pytorch permite acesso de alto desempenho e baixo nível ao hardware da GPU, enquanto expõe uma API Pytorch familiar para desenvolvedores. Mais informações sobre como usar o PyTorch com DirectML podem ser encontradas aqui

DirectML para aplicativos Web (Visualização)

A API de Rede Neural da Web (WebNN) é um padrão da Web emergente que permite que aplicativos e estruturas da Web acelerem redes neurais profundas com hardware no dispositivo, como GPUs, CPUs ou aceleradores de IA construídos especificamente para esse fim, como NPUs. A API WebNN aproveita a API DirectML no Windows para acessar os recursos de hardware nativos e otimizar a execução de modelos de rede neural. Para mais informações sobre o WebNN pode ser encontrado aqui

Compartilhar via