Начало работы с набором средств ИИ для Visual Studio Code

2025-05-30

Набор средств ИИ для VS Code (AI Toolkit) — это VS Code расширение, которое позволяет загружать, тестировать, настраивать и развертывать модели ИИ с помощью приложений или в облаке. Дополнительные сведения см. в обзоре набора средств ИИ.

Примечание.

Дополнительные документы и руководства по набору средств ИИ для VS Code доступны в документации VS Code: AI Toolkit for Visual Studio Code. Вы найдете рекомендации по детской площадке, работе с моделями ИИ, точной настройке локальных и облачных моделей и т. д.

В этой статье вы узнаете, как выполнять следующие задачи.

Установка набора средств ИИ для VS Code
Скачивание модели из каталога
Локальное выполнение модели с помощью игровой площадки
Интеграция модели ИИ в приложение с помощью REST среды выполнения ONNX

Необходимые компоненты

VS Code необходимо установить. Дополнительные сведения см. в разделе "Загрузка VS Code и начало работы с VS Code".

При использовании функций искусственного интеллекта рекомендуется ознакомиться с рекомендациями по разработке ответственных приложений и функций ИИ в Windows.

Установка

Набор средств ИИ доступен в Visual Studio Marketplace и может быть установлен как любое другое VS Code расширение. Если вы не знакомы с установкой VS Code расширений, выполните следующие действия.

На Панели активности в VS Code выберите «Расширения»
В строке поиска расширений введите "AI Toolkit"
Выберите "Ai Toolkit for Visual Studio code" (Набор средств ИИ для Visual Studio code)
Выберите "Установить"

После установки расширения вы увидите значок набора средств ИИ на панели действий.

Скачивание модели из каталога

Основная боковая панель набора средств ИИ организована в моих моделях, каталогах, инструментах и справке и отзыве. Функции песочницы, группового запуска, оценки и тонкой настройки доступны в разделе Инструменты. Чтобы приступить к работе, выберите модели из раздела каталога , чтобы открыть окно каталога моделей :

Снимок экрана: окно каталога моделей ai Toolkit в VS Code

Фильтры в верхней части каталога можно использовать для фильтрации по размещению, издателю, задачам и типу модели. Также есть переключатель Fine-Tuning Support, который можно включить, чтобы показывать только те модели, которые можно донастроить.

Совет

Фильтр типа модели позволяет отображать только модели, которые будут выполняться локально на ЦП, GPU или NPU или моделях, поддерживающих только удаленный доступ. Для оптимизации производительности на устройствах с хотя бы одним GPU выберите тип модели локального запуска w/GPU. Это помогает найти модель, оптимизированную для акселератора DirectML .

Чтобы проверить наличие GPU на устройстве Windows, откройте диспетчер задач и перейдите на вкладку "Производительность ". Если у вас есть GPU, они будут перечислены под именами, такими как GPU 0 или GPU 1.

Примечание.

Для компьютеров Copilot+ с единицей нейронной обработки (NPU) можно выбрать модели, оптимизированные для акселератора NPU. Модель Deepseek R1 Distilled оптимизирована для NPU и доступна для загрузки на ПК с процессором Snapdragon и Copilot+ под управлением операционной системой Windows 11. Дополнительную информацию см. в статье «Локальный запуск дистиллированных моделей DeepSeek R1 на ПК Copilot+ с использованием возможностей Windows AI Foundry».

В настоящее время для устройств Windows доступны следующие модели с одним или несколькими графическими процессорами:

Мистраль 7B (DirectML - небольшой, быстрый)
Phi 3 Mini 4K (DirectML - Маленький, Быстрый)
Phi 3 Mini 128K (DirectML - Маленький, Быстрый)

Выберите модель Phi 3 Mini 4K и нажмите кнопку "Скачать":

Примечание.

Модель Phi 3 Mini 4K по размеру составляет примерно 2 ГБ-3 ГБ. В зависимости от скорости сети может потребоваться несколько минут для скачивания.

Запуск модели на детской площадке

После скачивания модели появится в разделе "Мои модели" в разделе "Локальные модели". Щелкните модель правой кнопкой мыши и выберите "Загрузить в игровой площадке" в контекстном меню:

Снимок экрана: пункт контекстного меню

В интерфейсе чата игровой площадки введите следующее сообщение и нажмите клавишу ВВОД:

Выбор игровой площадки

Вы должны увидеть ответ модели, потоковый обратно к вам:

Отклик генерации

Предупреждение

Если на вашем устройстве нет доступного графического процессора, но вы выбрали модель Phi-3-mini-4k-directml-int4-awq-block-128-onnx, ответ модели будет очень медленным. Вместо этого следует скачать оптимизированную версию ЦП: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Также можно изменить следующее:

Инструкции по контексту: Помогите модели понять более большую картину запроса. Это может быть фоновая информация, примеры и демонстрации того, что вы хотите или объясняете цель задачи.
Параметры вывода:
- Максимальная длина ответа: максимальное количество маркеров, возвращаемых моделью.
- Температура модели: Температура модели — это параметр, регулирующий уровень случайности в результатах языковой модели. Более высокая температура означает, что модель принимает больше рисков, что дает вам разнообразную смесь слов. С другой стороны, более низкая температура делает модель играть в ней безопасно, придерживаясь более сосредоточенных и прогнозируемых ответов.
- Top P: также известен как метод выборки ядра и является настройкой, которая определяет количество возможных слов или фраз, учитываемых языковой моделью при прогнозировании следующего слова.
- Частота штрафа. Этот параметр влияет на частоту повторения слов или фраз модели в выходных данных. Чем выше значение (ближе к 1.0), модель позволяет избежать повторяющихся слов или фраз.
- Штраф за присутствие: этот параметр используется в моделях генеративного ИИ для поощрения разнообразия и точности создаваемого текста. Более высокое значение (ближе к 1.0) поощряет модель включать более новые и разнообразные маркеры. Более низкое значение, скорее всего, модель создает распространенные или клише фразы.

Интеграция модели ИИ в приложение

Существует два варианта интеграции модели в приложение:

Набор средств ИИ поставляется с локальным REST веб-сервером API , использующим формат завершения чата OpenAI. Это позволяет протестировать приложение локально с помощью конечной точки http://127.0.0.1:5272/v1/chat/completions , не используя облачную службу модели искусственного интеллекта. Используйте этот параметр, если вы планируете переключиться на облачную конечную точку в рабочей среде. Клиентские библиотеки OpenAI можно использовать для подключения к веб-серверу.
Использование среды выполнения ONNX. Используйте этот параметр, если вы планируете отправить модель с приложением с использованием вывода на устройстве.

Локальный REST веб-сервер API

Локальный REST веб-сервер API позволяет локально создавать и тестировать приложение без необходимости полагаться на службу модели облачного ИИ. Вы можете взаимодействовать с веб-сервером с помощью RESTклиентской библиотеки OpenAI:

Ниже приведен пример текста REST запроса:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Примечание.

Возможно, потребуется обновить поле модели до имени скачаемой модели.

Вы можете протестировать конечную точку REST с помощью средства API, например Postman или программы CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Установите библиотеку Python OpenAI:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

Добавьте в проект клиентскую библиотеку Azure OpenAI для .NET с помощью NuGet.

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Добавьте файл C# с именем OverridePolicy.cs в проект и вставьте следующий код:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

Затем вставьте следующий код в файл Program.cs :

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Примечание.

Если вы скачали версию ЦП модели Phi3, необходимо обновить поле модели до Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Среда выполнения ONNX

API создания среды выполнения ONNX предоставляет цикл создания ИИ для моделей ONNX, включая вывод с помощью среды выполнения ONNX, обработки журналов, поиска и выборки, а также управления кэшем KV. Можно вызвать метод высокого уровня generate() или запустить каждую итерацию модели в цикле, создать один маркер за раз и при необходимости обновить параметры создания внутри цикла.

Она поддерживает жадный и луч поиска и выборки TopP, TopK для создания последовательностей маркеров и встроенных логитов обработки, таких как штрафы повторения. Следующий код — это пример использования среды выполнения ONNX в приложениях.

См. пример, показанный на REST локального API. Веб-сервер ai Toolkit REST создается с помощью среды выполнения ONNX.

Установите Numpy:

pip install numpy

Затем установите пакет Python среды выполнения ONNX в проект в соответствии с доступностью платформы и GPU:

Платформа	Доступно GPU	PyPI
Виндоус	Да (AMD, NVIDIA, Intel, Qualcomm и другие поддерживаемые)	`pip install --pre onnxruntime-genai-directml`
Линукс	Да (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Виндоус Линукс	нет	`pip install --pre onnxruntime-genai`

Совет

Рекомендуется устанавливать пакеты Python в виртуальную среду с помощью venv или conda.

Затем скопируйте и вставьте следующий код в файл Python с именем app.py:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Чтобы запустить приложение Python, используйте следующий код:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Примечание.

AI Toolkit кэширует загрузки моделей в скрытую папку с именем .aitk в вашем пользовательском каталоге. Вам необходимо обновить путь, используемый для параметра --model, к расположению папки, содержащей файл модели ONNX. Например так: ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Установите пакет NuGet среды выполнения ONNX в проект в соответствии с доступностью платформы и GPU:

Платформа	Доступно GPU	Nuget
Виндоус	Да (AMD, NVIDIA, Intel, Qualcomm и другие поддерживаемые)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Линукс	Да (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
Виндоус Линукс	нет	Microsoft.ML.OnnxRuntimeGenAI

Скопируйте и вставьте следующий код в файл C#:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Примечание.

Программа AI Toolkit кэширует скачивание моделей в скрытую папку с именем .aitk в вашем пользовательском каталоге. Вам потребуется обновить modelPath в коде, указав расположение папки, содержащей файл модели ONNX. Например так: ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Следующий шаг

Настройка модели с помощью набора средств искусственного интеллекта для VS Code

Поделиться через

Начало работы с набором средств ИИ для Visual Studio Code

Необходимые компоненты

Установка

Скачивание модели из каталога

Запуск модели на детской площадке

Интеграция модели ИИ в приложение

Локальный REST веб-сервер API

Среда выполнения ONNX

Следующий шаг

Обратная связь

Дополнительные ресурсы