Поделиться через


Начало работы с набором средств ИИ для Visual Studio Code

Набор средств ИИ для VS Code (AI Toolkit) — это VS Code расширение, которое позволяет загружать, тестировать, настраивать и развертывать модели ИИ с помощью приложений или в облаке. Дополнительные сведения см. в обзоре набора средств ИИ.

Примечание.

Дополнительные документы и руководства по набору средств ИИ для VS Code доступны в документации VS Code: AI Toolkit for Visual Studio Code. Вы найдете рекомендации по детской площадке, работе с моделями ИИ, точной настройке локальных и облачных моделей и т. д.

В этой статье вы узнаете, как выполнять следующие задачи.

  • Установка набора средств ИИ для VS Code
  • Скачивание модели из каталога
  • Локальное выполнение модели с помощью игровой площадки
  • Интеграция модели ИИ в приложение с помощью REST среды выполнения ONNX

Необходимые компоненты

При использовании функций искусственного интеллекта рекомендуется ознакомиться с рекомендациями по разработке ответственных приложений и функций ИИ в Windows.

Установка

Набор средств ИИ доступен в Visual Studio Marketplace и может быть установлен как любое другое VS Code расширение. Если вы не знакомы с установкой VS Code расширений, выполните следующие действия.

  1. На Панели активности в VS Code выберите «Расширения»
  2. В строке поиска расширений введите "AI Toolkit"
  3. Выберите "Ai Toolkit for Visual Studio code" (Набор средств ИИ для Visual Studio code)
  4. Выберите "Установить"

После установки расширения вы увидите значок набора средств ИИ на панели действий.

Скачивание модели из каталога

Основная боковая панель набора средств ИИ организована в моих моделях, каталогах, инструментах и справке и отзыве. Функции песочницы, группового запуска, оценки и тонкой настройки доступны в разделе Инструменты. Чтобы приступить к работе, выберите модели из раздела каталога , чтобы открыть окно каталога моделей :

Снимок экрана: окно каталога моделей ai Toolkit в VS Code

Фильтры в верхней части каталога можно использовать для фильтрации по размещению, издателю, задачам и типу модели. Также есть переключатель Fine-Tuning Support, который можно включить, чтобы показывать только те модели, которые можно донастроить.

Совет

Фильтр типа модели позволяет отображать только модели, которые будут выполняться локально на ЦП, GPU или NPU или моделях, поддерживающих только удаленный доступ. Для оптимизации производительности на устройствах с хотя бы одним GPU выберите тип модели локального запуска w/GPU. Это помогает найти модель, оптимизированную для акселератора DirectML .

Чтобы проверить наличие GPU на устройстве Windows, откройте диспетчер задач и перейдите на вкладку "Производительность ". Если у вас есть GPU, они будут перечислены под именами, такими как GPU 0 или GPU 1.

Примечание.

Для компьютеров Copilot+ с единицей нейронной обработки (NPU) можно выбрать модели, оптимизированные для акселератора NPU. Модель Deepseek R1 Distilled оптимизирована для NPU и доступна для загрузки на ПК с процессором Snapdragon и Copilot+ под управлением операционной системой Windows 11. Дополнительную информацию см. в статье «Локальный запуск дистиллированных моделей DeepSeek R1 на ПК Copilot+ с использованием возможностей Windows AI Foundry».

В настоящее время для устройств Windows доступны следующие модели с одним или несколькими графическими процессорами:

  • Мистраль 7B (DirectML - небольшой, быстрый)
  • Phi 3 Mini 4K (DirectML - Маленький, Быстрый)
  • Phi 3 Mini 128K (DirectML - Маленький, Быстрый)

Выберите модель Phi 3 Mini 4K и нажмите кнопку "Скачать":

Примечание.

Модель Phi 3 Mini 4K по размеру составляет примерно 2 ГБ-3 ГБ. В зависимости от скорости сети может потребоваться несколько минут для скачивания.

Запуск модели на детской площадке

После скачивания модели появится в разделе "Мои модели" в разделе "Локальные модели". Щелкните модель правой кнопкой мыши и выберите "Загрузить в игровой площадке" в контекстном меню:

Снимок экрана: пункт контекстного меню

В интерфейсе чата игровой площадки введите следующее сообщение и нажмите клавишу ВВОД:

Выбор игровой площадки

Вы должны увидеть ответ модели, потоковый обратно к вам:

Отклик генерации

Предупреждение

Если на вашем устройстве нет доступного графического процессора, но вы выбрали модель Phi-3-mini-4k-directml-int4-awq-block-128-onnx, ответ модели будет очень медленным. Вместо этого следует скачать оптимизированную версию ЦП: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Также можно изменить следующее:

  • Инструкции по контексту: Помогите модели понять более большую картину запроса. Это может быть фоновая информация, примеры и демонстрации того, что вы хотите или объясняете цель задачи.
  • Параметры вывода:
    • Максимальная длина ответа: максимальное количество маркеров, возвращаемых моделью.
    • Температура модели: Температура модели — это параметр, регулирующий уровень случайности в результатах языковой модели. Более высокая температура означает, что модель принимает больше рисков, что дает вам разнообразную смесь слов. С другой стороны, более низкая температура делает модель играть в ней безопасно, придерживаясь более сосредоточенных и прогнозируемых ответов.
    • Top P: также известен как метод выборки ядра и является настройкой, которая определяет количество возможных слов или фраз, учитываемых языковой моделью при прогнозировании следующего слова.
    • Частота штрафа. Этот параметр влияет на частоту повторения слов или фраз модели в выходных данных. Чем выше значение (ближе к 1.0), модель позволяет избежать повторяющихся слов или фраз.
    • Штраф за присутствие: этот параметр используется в моделях генеративного ИИ для поощрения разнообразия и точности создаваемого текста. Более высокое значение (ближе к 1.0) поощряет модель включать более новые и разнообразные маркеры. Более низкое значение, скорее всего, модель создает распространенные или клише фразы.

Интеграция модели ИИ в приложение

Существует два варианта интеграции модели в приложение:

  1. Набор средств ИИ поставляется с локальным REST веб-сервером API , использующим формат завершения чата OpenAI. Это позволяет протестировать приложение локально с помощью конечной точки http://127.0.0.1:5272/v1/chat/completions , не используя облачную службу модели искусственного интеллекта. Используйте этот параметр, если вы планируете переключиться на облачную конечную точку в рабочей среде. Клиентские библиотеки OpenAI можно использовать для подключения к веб-серверу.
  2. Использование среды выполнения ONNX. Используйте этот параметр, если вы планируете отправить модель с приложением с использованием вывода на устройстве.

Локальный REST веб-сервер API

Локальный REST веб-сервер API позволяет локально создавать и тестировать приложение без необходимости полагаться на службу модели облачного ИИ. Вы можете взаимодействовать с веб-сервером с помощью RESTклиентской библиотеки OpenAI:

Ниже приведен пример текста REST запроса:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Примечание.

Возможно, потребуется обновить поле модели до имени скачаемой модели.

Вы можете протестировать конечную точку REST с помощью средства API, например Postman или программы CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Среда выполнения ONNX

API создания среды выполнения ONNX предоставляет цикл создания ИИ для моделей ONNX, включая вывод с помощью среды выполнения ONNX, обработки журналов, поиска и выборки, а также управления кэшем KV. Можно вызвать метод высокого уровня generate() или запустить каждую итерацию модели в цикле, создать один маркер за раз и при необходимости обновить параметры создания внутри цикла.

Она поддерживает жадный и луч поиска и выборки TopP, TopK для создания последовательностей маркеров и встроенных логитов обработки, таких как штрафы повторения. Следующий код — это пример использования среды выполнения ONNX в приложениях.

См. пример, показанный на REST локального API. Веб-сервер ai Toolkit REST создается с помощью среды выполнения ONNX.

Следующий шаг