Comenzar a utilizar AI Toolkit for Visual Studio Code

2025-05-30

AI Toolkit for VS Code (AI Toolkit) es una extensión VS Code que le permite descargar, probar, ajustar y desplegar modelos de IA con sus aplicaciones o en la nube. Para obtener más información, consulte la información general del kit de herramientas de IA.

Nota:

Encontrará documentación adicional y tutoriales para AI Toolkit para VS Code en la documentación de VS Code: AI Toolkit para Visual Studio Code. Encontrará instrucciones sobre Playground, trabajar con modelos de IA, ajustar modelos locales y basados en la nube, etc.

En este artículo, aprenderá a:

Instalar el AI Toolkit for VS Code
Descargar un modelo del catálogo
Ejecutar el modelo localmente mediante el área de juegos
Integración de un modelo de IA en la aplicación mediante REST o el entorno de ejecución de ONNX

Requisitos previos

VS Code debe estar instalado. Para obtener más información, consulte Descargar VS Code e Introducción a VS Code.

Al utilizar funcionalidades de IA, recomendamos que revise: Desarrollo de aplicaciones y funcionalidades de IA generativas responsables en Windows.

Instalar

El AI Toolkit está disponible en Visual Studio Marketplace y puede instalarse como cualquier otra extensión VS Code. Si no está familiarizado con la instalación de extensiones de VS Code, siga estos pasos:

En la barra de actividad de VS Code, seleccione Extensiones
En la barra de búsqueda de extensiones, escriba "Kit de herramientas de IA"
Sekleccione Kit de herramientas de IA para Visual Studio Code
Seleccione Instalar

Una vez instalada la extensión, verá que el icono del kit de herramientas de IA aparece en la barra de actividades.

Descargar un modelo del catálogo

La barra lateral principal del kit de herramientas de la IA se organiza en Mis modelos, Catálogo, Herramientasy Ayuda y Comentarios. Las características de área de juegos, ejecución masiva , evaluación y ajuste preciso están disponibles en la sección Herramientas. Para empezar, seleccione Models en la sección Catalog para abrir la ventana del catálogo de modelos .

Captura de pantalla de la ventana del catálogo de modelos de AI Toolkit en VS Code

Puede usar los filtros de la parte superior del catálogo para filtrar por Hospedado por, Editor, Tareas y Tipo de modelo. También hay un modificador de Soporte de ajuste preciso que puede activar para mostrar solo los modelos que se pueden ajustar de forma precisa.

Sugerencia

El filtro de Tipo de modelo permite mostrar solo los modelos que se ejecutarán localmente en la CPU, GPU o NPU, o los que admiten únicamente acceso remoto. Para optimizar el rendimiento en los dispositivos que tienen al menos un GPU, seleccione el tipo de modelo Ejecución local con GPU. Esto ayuda a encontrar un modelo optimizado para el acelerador DirectML.

Para comprobar si tiene una GPU en el dispositivo Windows, abra el Administrador de tareas y, a continuación, seleccione la pestaña Rendimiento. Si tiene varias GPU, se mostrarán con nombres como "GPU 0" o "GPU 1".

Nota:

Para equipos de Copilot+ con una unidad de procesamiento neuronal (NPU), puede seleccionar modelos optimizados para el acelerador de NPU. El modelo Deepseek R1 Distilled está optimizado para la NPU y está disponible para descargarse en equipos con Copilot+, con tecnología Snapdragon que ejecutan Windows 11. Para obtener más información, consulte Ejecutar modelos destilados de DeepSeek R1 localmente en equipos Copilot+, impulsados por Windows AI Foundry.

Los siguientes modelos están disponibles actualmente para dispositivos Windows con una o varias GPU:

Mistral 7B (DirectML - Pequeño, Rápido)
Phi 3 Mini 4K (DirectML - Pequeño, Rápido)
Phi 3 Mini 128K (DirectML - Pequeño, Rápido)

Seleccione el modelo Phi 3 Mini 4K y haga clic en Descargar:

Nota:

El modelo Phi 3 Mini 4K tiene un tamaño aproximado de 2 GB a 3 GB. Según la velocidad de la red, la descarga podría tardar unos minutos.

Ejecución del modelo en el área de juegos

Una vez que se haya descargado el modelo, aparecerá en la sección Mis modelos bajo Modelos locales. Haga clic con el botón derecho en el modelo y seleccione Cargar en área de juegos en el menú contextual:

Captura de pantalla del elemento de menú contextual 'Load in Playground'

En la interfaz de chat del área de juegos, escriba el siguiente mensaje seguido de la tecla Intro :

Selección del área de juegos

Debería ver la respuesta del modelo transmitida de vuelta a usted:

Generación de respuestas

Advertencia

Si no tiene una GPU disponible en el dispositivo, pero seleccionó el modelo Phi-3-mini-4k-directml-int4-awq-block-128-onnx, la respuesta del modelo será muy lenta. En su lugar, debe descargar la versión optimizada para CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

También es posible cambiar:

Instrucciones de contexto: ayude al modelo a comprender la imagen más grande de la solicitud. Esto podría ser información general, ejemplos o demostraciones de lo que desea o explicar el propósito de la tarea.
Parámetros de inferencia:
- Longitud máxima de la respuesta: el número máximo de tokens que devolverá el modelo.
- Temperatura: la temperatura del modelo es un parámetro que controla cómo es la salida aleatoria de un modelo de lenguaje. Una temperatura más alta significa que el modelo asume más riesgos, lo que le proporciona una combinación diversa de palabras. Por otro lado, una temperatura más baja hace que el modelo vaya a lo seguro y se ciña a respuestas más centradas y predecibles.
- Top P: también conocido como muestreo de núcleos, es un valor que controla cuántas palabras o frases posibles considera el modelo de lenguaje al predecir la siguiente palabra
- Penalización de frecuencia: este parámetro influye en la frecuencia con la que el modelo repite palabras o frases en su salida. Cuanto mayor sea el valor (más cercano a 1,0), se anima al modelo a evitar repetir palabras o frases.
- Penalización de presencia: este parámetro se usa en modelos de IA generativa para fomentar la diversidad y la especificidad en el texto generado. Un valor más alto (más cercano a 1,0) anima al modelo a incluir tokens más novedosos y diversos. Es más probable que un valor menor sea para que el modelo genere frases comunes o cliché.

Integración de un modelo de IA en la aplicación

Hay dos opciones para integrar el modelo en la aplicación:

El AI Toolkit viene con un servidor web API localREST que utiliza el formato de finalización de chat OpenAI. Esto le permite probar la aplicación localmente mediante el punto de conexión http://127.0.0.1:5272/v1/chat/completions sin tener que confiar en un servicio de modelo de IA en la nube. Use esta opción si piensa cambiar a un punto de conexión en la nube en producción. Puede usar bibliotecas cliente de OpenAI para conectarse al servidor web.
Uso del entorno de ejecución de ONNX. Use esta opción si piensa enviar el modelo con la aplicación con inferencia en el dispositivo.

Servidor web de API REST local

El servidor web de API local REST le permite compilar y probar la aplicación localmente sin tener que confiar en un servicio de modelo de IA en la nube. Puede interactuar con el servidor web mediante REST o con una biblioteca cliente de OpenAI:

Este es un cuerpo de ejemplo para la solicitud REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Nota:

Es posible que tenga que actualizar el campo del modelo al nombre del modelo que descargó.

Puede probar el punto de conexión REST mediante una herramienta de API como Postman o la utilidad CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Instalación de la biblioteca de Python de OpenAI:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

Agregue la biblioteca cliente de Azure OpenAI para .NET al proyecto mediante NuGet:

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Agregue un archivo de C# denominado OverridePolicy.cs al proyecto y pegue el código siguiente:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

A continuación, pegue el código siguiente en el archivo Program.cs:

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Nota:

Si descargó la versión de CPU del modelo Phi3, deberá actualizar el campo del modelo a Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

ONNX Runtime

La API de generación en tiempo de ejecución de ONNX proporciona el bucle de IA generativo para los modelos ONNX, incluida la inferencia con ONNX Runtime, el procesamiento de logits, la búsqueda y el muestreo, y la administración de caché de KV. Puede llamar a un método de alto nivel generate() o ejecutar cada iteración del modelo en un bucle, generar un token cada vez y, opcionalmente, actualizar parámetros de generación dentro del bucle.

Tiene compatibilidad con la búsqueda expansiva/haz y TopP, el muestreo de TopK para generar secuencias de token y procesamiento de logits integrado, como penalizaciones de repetición. El código siguiente es un ejemplo de cómo puede aprovechar el entorno de ejecución de ONNX en las aplicaciones.

Consulte el ejemplo que se muestra en el servidor web de la API local REST. El servidor web del AI Toolkit REST se construye utilizando ONNX Runtime.

Instalación de Numpy:

pip install numpy

A continuación, instale el paquete de Python en tiempo de ejecución de ONNX en el proyecto según la plataforma y la disponibilidad de GPU:

Plataforma	GPU disponible	PyPI
Windows	Sí (AMD, NVIDIA, Intel, Qualcomm, además de otros compatibles)	`pip install --pre onnxruntime-genai-directml`
Linux	Sí (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Windows Linux	No	`pip install --pre onnxruntime-genai`

Sugerencia

Se recomienda instalar paquetes de Python en un entorno virtual mediante venv o conda.

A continuación, copie y pegue el código siguiente en el archivo de Python app.py:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Use el siguiente código para ejecutar la aplicación de Python:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Nota:

El AI Toolkit almacena en caché las descargas de modelos en una carpeta oculta denominada .aitk en su directorio de usuario. Deberá actualizar la ruta utilizada para el parámetro --model a la ubicación de la carpeta que contiene el archivo de modelo ONNX. Por ejemplo, ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/.

Instale el paquete NuGet en tiempo de ejecución de ONNX en el proyecto según la plataforma y la disponibilidad de GPU:

Plataforma	GPU disponible	NuGet
Windows	Sí (AMD, NVIDIA, Intel, Qualcomm, además de otros compatibles)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Linux	Sí (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
Windows Linux	No	Microsoft.ML.OnnxRuntimeGenAI

Copie y pegue el siguiente código en el archivo C#:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Nota:

El AI Toolkit almacena en caché las descargas de modelos en una carpeta oculta denominada .aitk del directorio de usuario. Deberá actualizar la ruta utilizada para el parámetro modelPath a la ubicación de la carpeta que contiene el archivo del modelo ONNX. Por ejemplo, ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/.

siguiente paso

Ajuste de un modelo con AI Toolkit for VS Code

Compartir a través de

Comenzar a utilizar AI Toolkit for Visual Studio Code

Requisitos previos

Instalar

Descargar un modelo del catálogo

Ejecución del modelo en el área de juegos

Integración de un modelo de IA en la aplicación

Servidor web de API REST local

ONNX Runtime

siguiente paso

Comentarios

Recursos adicionales