Compartir a través de


Comenzar a utilizar AI Toolkit for Visual Studio Code

AI Toolkit for VS Code (AI Toolkit) es una extensión VS Code que le permite descargar, probar, ajustar y desplegar modelos de IA con sus aplicaciones o en la nube. Para obtener más información, consulte la información general del kit de herramientas de IA.

Nota:

Encontrará documentación adicional y tutoriales para AI Toolkit para VS Code en la documentación de VS Code: AI Toolkit para Visual Studio Code. Encontrará instrucciones sobre Playground, trabajar con modelos de IA, ajustar modelos locales y basados en la nube, etc.

En este artículo, aprenderá a:

  • Instalar el AI Toolkit for VS Code
  • Descargar un modelo del catálogo
  • Ejecutar el modelo localmente mediante el área de juegos
  • Integración de un modelo de IA en la aplicación mediante REST o el entorno de ejecución de ONNX

Requisitos previos

Al utilizar funcionalidades de IA, recomendamos que revise: Desarrollo de aplicaciones y funcionalidades de IA generativas responsables en Windows.

Instalar

El AI Toolkit está disponible en Visual Studio Marketplace y puede instalarse como cualquier otra extensión VS Code. Si no está familiarizado con la instalación de extensiones de VS Code, siga estos pasos:

  1. En la barra de actividad de VS Code, seleccione Extensiones
  2. En la barra de búsqueda de extensiones, escriba "Kit de herramientas de IA"
  3. Sekleccione Kit de herramientas de IA para Visual Studio Code
  4. Seleccione Instalar

Una vez instalada la extensión, verá que el icono del kit de herramientas de IA aparece en la barra de actividades.

Descargar un modelo del catálogo

La barra lateral principal del kit de herramientas de la IA se organiza en Mis modelos, Catálogo, Herramientasy Ayuda y Comentarios. Las características de área de juegos, ejecución masiva , evaluación y ajuste preciso están disponibles en la sección Herramientas. Para empezar, seleccione Models en la sección Catalog para abrir la ventana del catálogo de modelos .

Captura de pantalla de la ventana del catálogo de modelos de AI Toolkit en VS Code

Puede usar los filtros de la parte superior del catálogo para filtrar por Hospedado por, Editor, Tareas y Tipo de modelo. También hay un modificador de Soporte de ajuste preciso que puede activar para mostrar solo los modelos que se pueden ajustar de forma precisa.

Sugerencia

El filtro de Tipo de modelo permite mostrar solo los modelos que se ejecutarán localmente en la CPU, GPU o NPU, o los que admiten únicamente acceso remoto. Para optimizar el rendimiento en los dispositivos que tienen al menos un GPU, seleccione el tipo de modelo Ejecución local con GPU. Esto ayuda a encontrar un modelo optimizado para el acelerador DirectML.

Para comprobar si tiene una GPU en el dispositivo Windows, abra el Administrador de tareas y, a continuación, seleccione la pestaña Rendimiento. Si tiene varias GPU, se mostrarán con nombres como "GPU 0" o "GPU 1".

Nota:

Para equipos de Copilot+ con una unidad de procesamiento neuronal (NPU), puede seleccionar modelos optimizados para el acelerador de NPU. El modelo Deepseek R1 Distilled está optimizado para la NPU y está disponible para descargarse en equipos con Copilot+, con tecnología Snapdragon que ejecutan Windows 11. Para obtener más información, consulte Ejecutar modelos destilados de DeepSeek R1 localmente en equipos Copilot+, impulsados por Windows AI Foundry.

Los siguientes modelos están disponibles actualmente para dispositivos Windows con una o varias GPU:

  • Mistral 7B (DirectML - Pequeño, Rápido)
  • Phi 3 Mini 4K (DirectML - Pequeño, Rápido)
  • Phi 3 Mini 128K (DirectML - Pequeño, Rápido)

Seleccione el modelo Phi 3 Mini 4K y haga clic en Descargar:

Nota:

El modelo Phi 3 Mini 4K tiene un tamaño aproximado de 2 GB a 3 GB. Según la velocidad de la red, la descarga podría tardar unos minutos.

Ejecución del modelo en el área de juegos

Una vez que se haya descargado el modelo, aparecerá en la sección Mis modelos bajo Modelos locales. Haga clic con el botón derecho en el modelo y seleccione Cargar en área de juegos en el menú contextual:

Captura de pantalla del elemento de menú contextual 'Load in Playground'

En la interfaz de chat del área de juegos, escriba el siguiente mensaje seguido de la tecla Intro :

Selección del área de juegos

Debería ver la respuesta del modelo transmitida de vuelta a usted:

Generación de respuestas

Advertencia

Si no tiene una GPU disponible en el dispositivo, pero seleccionó el modelo Phi-3-mini-4k-directml-int4-awq-block-128-onnx, la respuesta del modelo será muy lenta. En su lugar, debe descargar la versión optimizada para CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

También es posible cambiar:

  • Instrucciones de contexto: ayude al modelo a comprender la imagen más grande de la solicitud. Esto podría ser información general, ejemplos o demostraciones de lo que desea o explicar el propósito de la tarea.
  • Parámetros de inferencia:
    • Longitud máxima de la respuesta: el número máximo de tokens que devolverá el modelo.
    • Temperatura: la temperatura del modelo es un parámetro que controla cómo es la salida aleatoria de un modelo de lenguaje. Una temperatura más alta significa que el modelo asume más riesgos, lo que le proporciona una combinación diversa de palabras. Por otro lado, una temperatura más baja hace que el modelo vaya a lo seguro y se ciña a respuestas más centradas y predecibles.
    • Top P: también conocido como muestreo de núcleos, es un valor que controla cuántas palabras o frases posibles considera el modelo de lenguaje al predecir la siguiente palabra
    • Penalización de frecuencia: este parámetro influye en la frecuencia con la que el modelo repite palabras o frases en su salida. Cuanto mayor sea el valor (más cercano a 1,0), se anima al modelo a evitar repetir palabras o frases.
    • Penalización de presencia: este parámetro se usa en modelos de IA generativa para fomentar la diversidad y la especificidad en el texto generado. Un valor más alto (más cercano a 1,0) anima al modelo a incluir tokens más novedosos y diversos. Es más probable que un valor menor sea para que el modelo genere frases comunes o cliché.

Integración de un modelo de IA en la aplicación

Hay dos opciones para integrar el modelo en la aplicación:

  1. El AI Toolkit viene con un servidor web API localREST que utiliza el formato de finalización de chat OpenAI. Esto le permite probar la aplicación localmente mediante el punto de conexión http://127.0.0.1:5272/v1/chat/completions sin tener que confiar en un servicio de modelo de IA en la nube. Use esta opción si piensa cambiar a un punto de conexión en la nube en producción. Puede usar bibliotecas cliente de OpenAI para conectarse al servidor web.
  2. Uso del entorno de ejecución de ONNX. Use esta opción si piensa enviar el modelo con la aplicación con inferencia en el dispositivo.

Servidor web de API REST local

El servidor web de API local REST le permite compilar y probar la aplicación localmente sin tener que confiar en un servicio de modelo de IA en la nube. Puede interactuar con el servidor web mediante REST o con una biblioteca cliente de OpenAI:

Este es un cuerpo de ejemplo para la solicitud REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Nota:

Es posible que tenga que actualizar el campo del modelo al nombre del modelo que descargó.

Puede probar el punto de conexión REST mediante una herramienta de API como Postman o la utilidad CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

ONNX Runtime

La API de generación en tiempo de ejecución de ONNX proporciona el bucle de IA generativo para los modelos ONNX, incluida la inferencia con ONNX Runtime, el procesamiento de logits, la búsqueda y el muestreo, y la administración de caché de KV. Puede llamar a un método de alto nivel generate() o ejecutar cada iteración del modelo en un bucle, generar un token cada vez y, opcionalmente, actualizar parámetros de generación dentro del bucle.

Tiene compatibilidad con la búsqueda expansiva/haz y TopP, el muestreo de TopK para generar secuencias de token y procesamiento de logits integrado, como penalizaciones de repetición. El código siguiente es un ejemplo de cómo puede aprovechar el entorno de ejecución de ONNX en las aplicaciones.

Consulte el ejemplo que se muestra en el servidor web de la API local REST. El servidor web del AI Toolkit REST se construye utilizando ONNX Runtime.

siguiente paso