Compartilhar via


Introdução ao Kit de Ferramentas de IA do Visual Studio Code

O Kit de Ferramentas de IA do VS Code (Kit de Ferramentas de IA) é uma extensão do VS Code que permite fazer download, testar, ajustar e implantar modelos de IA com seus aplicativos ou na nuvem. Para obter mais informações, consulte Visão geral do Kit de Ferramentas de IA.

Observação

Documentação e tutoriais adicionais para o Kit de Ferramentas de IA para VS Code estão disponíveis na documentação do VS Code: Kit de Ferramentas de IA para Visual Studio Code. Você encontrará orientações sobre o Playground, como trabalhar com modelos de IA, ajustar modelos locais e baseados em nuvem e muito mais.

Neste artigo, você aprenderá a:

  • Instalar o Kit de Ferramentas de IA do VS Code
  • Baixar um modelo do catálogo
  • Executar o modelo localmente usando o playground
  • Integrar um modelo de IA em seu aplicativo usando REST ou o ONNX Runtime

Pré-requisitos

Ao utilizar recursos de IA, recomendamos que você examine: Desenvolvendo aplicativos e recursos de IA generativos responsáveis no Windows.

Instalar

O Kit de Ferramentas de IA está disponível no Visual Studio Marketplace e pode ser instalado como qualquer outra extensão do VS Code. Caso não saiba como instalar extensões do VS Code, siga estas etapas:

  1. Na barra Atividades do VS Code, selecione Extensões
  2. Na barra de pesquisa Extensões, digite "Kit de Ferramentas de IA"
  3. Selecione o "Kit de Ferramentas de IA do Visual Studio Code"
  4. Selecionar Instalar

Depois que a extensão for instalada, você verá o ícone do Kit de Ferramentas de IA aparecer na barra Atividades.

Baixar um modelo do catálogo

A barra lateral primária do Kit de Ferramentas de IA é organizada em My Models, Catalog, Toolse Help and Feedback. Os recursos Playground, Execução em Massa, Avaliação e Ajuste fino estão disponíveis na seção Ferramentas. Para começar, selecione Modelos na seção Catálogo para abrir a janela Catálogo de Modelos:

Uma captura de tela da janela do catálogo de modelos do Kit de Ferramentas de IA no VS Code

Você pode usar os filtros na parte superior do catálogo para filtrar por Hospedado por, Fornecedor, Tarefas e Tipo de modelo. Há também uma opção Suporte de Ajuste Fino que você pode ativar para mostrar somente os modelos que podem ser ajustados.

Dica

O filtro Tipo de modelo permite mostrar somente os modelos que serão executados localmente na CPU, GPU ou NPU ou modelos que suportam apenas Acesso remoto. Para obter desempenho otimizado em dispositivos que têm pelo menos uma GPU, selecione o tipo de modelo Execução local com GPU. Isso ajuda a encontrar um modelo otimizado para o acelerador DirectML.

Para verificar se você tem uma GPU no dispositivo Windows, abra o Gerenciador de Tarefas e selecione a guia Desempenho. Se você tiver GPUs, elas serão listadas com nomes como "GPU 0" ou "GPU 1".

Observação

Para computadores Copilot+ com uma NPU (Unidade de Processamento Neural), você pode selecionar modelos otimizados para o acelerador de NPU. O modelo Distilled do Deepseek R1 é otimizado para a NPU e está disponível para download em PCs Copilot+ equipados com Snapdragon com Windows 11. Para obter mais informações, consulte Executando modelos destilados de DeepSeek R1 localmente em PCs Copilot+, potencializados por Windows AI Foundry.

No momento, os seguintes modelos estão disponíveis para dispositivos Windows com uma ou mais GPUs:

  • Mistral 7B (DirectML - Pequeno, Rápido)
  • Phi 3 Mini 4K (DirectML - Pequeno, Rápido)
  • Phi 3 Mini 128K (DirectML - Pequeno, Rápido)

Selecione o modelo Phi 3 Mini 4K e clique em Baixar:

Observação

O modelo Phi 3 Mini 4K tem aproximadamente 2 GB-3 GB de tamanho. Dependendo da velocidade da sua rede, o download pode demorar alguns minutos.

Executar o modelo no playground

Depois que o modelo for baixado, ele aparecerá na seção 'Meus Modelos' em 'Modelos Locais'. Clique com o botão direito do mouse no modelo e selecione Carregar no Playground no menu de contexto:

Captura de tela do item de menu de contexto Carregar no Playground

Na interface de bate-papo do playground, digite a seguinte mensagem seguida pela tecla Enter:

Seleção de playground

Você deve ver a resposta do modelo transmitida de volta para você:

Resposta de geração

Aviso

Se você não tiver uma GPU disponível em seu dispositivo, mas tiver selecionado o modelo Phi-3-mini-4k-directml-int4-awq-block-128-onnx, a resposta do modelo será muito lenta. Em vez disso, você deve baixar a versão otimizada para CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Também é possível alterar:

  • Instruções de contexto: ajude o modelo a entender o panorama geral da sua solicitação. Podem ser informações básicas, exemplos/demonstrações do que você quer ou explicações sobre o propósito da sua tarefa.
  • Parâmetros de inferência:
    • Comprimento máximo da resposta: o número máximo de tokens que o modelo retornará.
    • Temperatura: a temperatura do modelo é um parâmetro que controla o quão aleatória é a saída de um modelo de linguagem. Uma temperatura mais alta significa que o modelo corre mais riscos, fornecendo uma mistura diversificada de palavras. Por outro lado, uma temperatura mais baixa faz com que o modelo seja mais seguro, aderindo a respostas mais focadas e previsíveis.
    • Top P: também conhecida como amostragem de núcleo, é uma configuração que controla quantas palavras ou frases possíveis o modelo de linguagem considera ao prever a próxima palavra
    • Penalidade de frequência: este parâmetro influencia a frequência com que o modelo repete palavras ou frases em sua saída. Quanto maior o valor (mais próximo de 1,0), o modelo evita a repetição de palavras ou frases.
    • Penalidade de presença: este parâmetro é usado em modelos de IA generativa para incentivar a diversidade e especificidade no texto gerado. Com um valor mais alto (mais próximo de 1,0) o modelo é incentivado a incluir tokens mais novos e diversos. Com um valor mais baixo, é mais provável que o modelo gere frases comuns ou clichês.

Integrar um modelo de IA ao aplicativo

Há duas opções de integrar o modelo ao seu aplicativo:

  1. O Kit de Ferramentas de IA vem com um servidorREST Web de API local que usa o formato de conclusão de chat do OpenAI. Assim, você pode testar seu aplicativo localmente usando o ponto de extremidade http://127.0.0.1:5272/v1/chat/completions sem precisar de um serviço de modelo de IA na nuvem. Use essa opção se você pretende mudar para um ponto de extremidade na nuvem em produção. Você pode usar bibliotecas de cliente OpenAI para se conectar ao servidor Web.
  2. Usar o ONNX Runtime. Use esta opção se pretende enviar o modelo com seu aplicativo com inferência no dispositivo.

Um servidor Web de API REST local

O servidor Web de API REST local permite criar e testar seu aplicativo localmente sem a necessidade de um serviço de modelo de IA na nuvem. Você pode interagir com o servidor Web usando REST, ou com uma biblioteca de cliente OpenAI:

Veja um exemplo de corpo para sua solicitação REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Observação

Pode ser necessário atualizar o campo de modelo para o nome do modelo que você baixou.

Você pode testar o ponto de extremidade REST usando uma ferramenta API como Postman ou o utilitário CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

ONNX Runtime

A API Generate do ONNX Runtime fornece o loop de IA generativa para modelos ONNX, incluindo inferência com ONNX Runtime, processamento de logits, pesquisa e amostragem e gerenciamento de cache KV. Você pode chamar um método generate() de alto nível ou executar cada iteração do modelo em um loop, gerando um token de cada vez e, como alternativa, atualizando os parâmetros de geração dentro do loop.

Ele tem suporte para busca greedy/beam search e amostragem TopP, TopK para gerar sequências de token e processamento de logits interno, como penalidades de repetição. O código a seguir é um exemplo de como você pode aproveitar o runtime do ONNX em seus aplicativos.

Confira o exemplo mostrado no servidor Web de API REST local. O servidor da Web do Kit de Ferramentas de IA do REST foi criado usando o ONNX Runtime.

Próxima Etapa