Rozpocznij korzystanie z AI Toolkit for Visual Studio Code

2025-05-30

Zestaw narzędzi AI Toolkit for VS Code (AI Toolkit) to rozszerzenie VS Code, które umożliwia pobieranie, testowanie, dostosowywanie i wdrażanie modeli sztucznej inteligencji za pomocą aplikacji lub w chmurze. Aby uzyskać więcej informacji, zobacz omówienie zestawu narzędzi AI Toolkit.

Notatka

Dodatkowa dokumentacja i samouczki dotyczące zestawu narzędzi AI Toolkit for VS Code są dostępne w VS Code dokumentacji: AI Toolkit for Visual Studio Code. Znajdziesz wskazówki dotyczące placu zabaw, pracy z modelami sztucznej inteligencji, dostrajaniem modeli lokalnych i opartych na chmurze i nie tylko.

Z tego artykułu dowiesz się, jak wykonywać następujące działania:

Zainstaluj zestaw narzędzi AI Toolkit for VS Code
Pobieranie modelu z wykazu
Uruchamianie modelu lokalnie przy użyciu placu zabaw
Integrowanie modelu sztucznej inteligencji z aplikacją przy użyciu REST lub środowiska uruchomieniowego ONNX

Warunki wstępne

VS Code należy zainstalować. Aby uzyskać więcej informacji, zobacz Pobieranie VS Code i rozpoczynanie pracy z VS Codeprogramem .

Podczas korzystania z funkcji sztucznej inteligencji zalecamy zapoznanie się z materiałem Tworzenie odpowiedzialnych aplikacji i funkcji generatywnej sztucznej inteligencji w systemie Windows.

Instalować

Zestaw narzędzi AI Toolkit jest dostępny w witrynie Visual Studio Marketplace i można go zainstalować jak każde inne VS Code rozszerzenie. Jeśli nie znasz instalowania rozszerzeń VS Code, wykonaj następujące kroki:

Na pasku działań w VS Code wybierz pozycję Rozszerzenia
Na pasku wyszukiwania rozszerzeń wpisz "AI Toolkit"
Wybierz "AI Toolkit for Visual Studio Code"
Wybierz pozycję Zainstaluj

Po zainstalowaniu rozszerzenia zobaczysz ikonę AI Toolkit na pasku działań.

Pobieranie modelu z wykazu

Podstawowy pasek boczny zestawu narzędzi AI Toolkit jest zorganizowany w elementy Moje modele, wykaz, narzędzia i Pomoc i opinie. Funkcje Placu zabaw, Uruchamianie zbiorcze, Oceny i Dostrajanie są dostępne w sekcji Narzędzia. Aby rozpocząć wybieranie modeli w sekcji Wykaz , aby otworzyć okno Katalog modeli :

Zrzut ekranu przedstawiający okno wykazu modeli zestawu narzędzi AI Toolkit w programie VS Code

Filtry w górnej części katalogu umożliwiają filtrowanie według Organizowane przez, Wydawca, Zadania i Typ modelu. Istnieje również przełącznik Fine-Tuning Support, który można włączyć, aby pokazywać tylko modele, które można dostroić.

Napiwek

Filtr typu modelu pozwala wyświetlać tylko modele, które będą uruchamiane lokalnie na CPU, GPU lub NPU, lub modele obsługujące wyłącznie dostęp zdalny . Aby uzyskać zoptymalizowaną wydajność na urządzeniach z co najmniej jednym procesorem GPU, wybierz typ modelu Lokalne uruchomienie w/GPU. Pomaga to znaleźć model zoptymalizowany pod kątem akceleratora DirectML .

Aby sprawdzić, czy masz procesor GPU na urządzeniu z systemem Windows, otwórz Menedżer zadań, a następnie wybierz kartę wydajności . Jeśli masz procesory GPU, będą one wyświetlane pod nazwami takimi jak "GPU 0" lub "GPU 1".

Notatka

W przypadku komputerów Copilot+ z jednostką przetwarzania neuronowego (NPU) można wybrać modele zoptymalizowane pod kątem akceleratora NPU. Model Deepseek R1 Distilled jest zoptymalizowany pod kątem NPU i dostępny do pobrania na komputerach Copilot+ PC z systemem Windows 11. Aby uzyskać więcej informacji, zobacz Running Distilled DeepSeek R1 models locally on Copilot+ PCs, powered by Windows AI Foundry ( Uruchamianie modeli DeepSeek R1 lokalnie na komputerach Copilot+ opartych na narzędziu Windows AI Foundry).

Następujące modele są obecnie dostępne dla urządzeń z systemem Windows z co najmniej jednym procesorem GPU:

Mistral 7B (DirectML — mały, szybki)
Phi 3 Mini 4K (DirectML — mały, szybki)
Phi 3 Mini 128K (DirectML — mały, szybki)

Wybierz model Phi 3 Mini 4K i kliknij przycisk Pobierz:

Notatka

Model Phi 3 Mini 4K ma rozmiar około 2 GB–3 GB. W zależności od szybkości sieci pobieranie może potrwać kilka minut.

Uruchamianie modelu na placu zabaw

Po pobraniu modelu zostanie on wyświetlony w sekcji Moje modele w obszarze Modele lokalne. Kliknij prawym przyciskiem myszy model i wybierz polecenie Załaduj na placu zabaw z menu kontekstowego:

Zrzut ekranu przedstawiający element menu kontekstowego Załaduj w Playground

W interfejsie czatu placu zabaw wprowadź następujący komunikat, a następnie Enter :

Wybór placu zabaw

Powinna zostać wyświetlona odpowiedź modelu przesyłana strumieniowo z powrotem do Ciebie:

Odpowiedź generowania

Ostrzeżenie

Jeśli na urządzeniu nie masz dostępnego procesora GPU, ale wybrano model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, odpowiedź modelu będzie bardzo niska. Zamiast tego należy pobrać wersję zoptymalizowaną dla CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Istnieje również możliwość zmiany:

Instrukcje kontekstowe: Pomóż modelowi zrozumieć większy obraz twojego żądania. Mogą to być podstawowe informacje, przykłady/pokazy tego, co chcesz lub wyjaśnić cel zadania.
Parametry wnioskowania:
- Maksymalna długość odpowiedzi: maksymalna liczba tokenów zwracanych przez model.
- Temperatura: Temperatura modelu to parametr temperaturowy, który kontroluje, jak bardzo zróżnicowane są dane wyjściowe modelu językowego. Wyższa temperatura oznacza, że model podejmuje większe ryzyko, oferując ci zróżnicowaną mieszankę słów. Z kolei niższa temperatura sprawia, że model gra bezpiecznie, trzyma się bardziej skoncentrowanych i przewidywalnych odpowiedzi.
- Najważniejsze P: Znane również jako próbkowanie jądra to ustawienie, które kontroluje liczbę możliwych wyrazów lub fraz, które model językowy rozważa podczas przewidywania następnego słowa
- Kara częstotliwości: ten parametr wpływa na częstotliwość powtarzania wyrazów lub fraz w danych wyjściowych modelu. Im wyższa wartość (bliżej 1,0) zachęca model do unikania powtarzania wyrazów lub fraz.
- Kara za obecność: ten parametr jest używany w modelach generowania sztucznej inteligencji, aby zachęcić do różnorodności i specyfiki wygenerowanego tekstu. Wyższa wartość (bliżej 1,0) zachęca model do uwzględnienia bardziej nowatorskich i zróżnicowanych tokenów. Niższa wartość jest bardziej prawdopodobna, aby model wygenerował typowe lub banalne frazy.

Integrowanie modelu sztucznej inteligencji z aplikacją

Istnieją dwie opcje integracji modelu z aplikacją:

Zestaw narzędzi AI Toolkit jest dostarczany z REST, który używa formatu uzupełniania czatu OpenAI. Dzięki temu można testować aplikację lokalnie — przy użyciu punktu końcowego http://127.0.0.1:5272/v1/chat/completions — bez konieczności polegania na usłudze modelu sztucznej inteligencji w chmurze. Użyj tej opcji, jeśli zamierzasz przełączyć się do punktu końcowego chmury w środowisku produkcyjnym. Aby nawiązać połączenie z serwerem internetowym, możesz użyć bibliotek klienckich openAI.
Przy użyciu środowiska uruchomieniowego ONNX. Użyj tej opcji, jeśli zamierzasz dostarczyć model wraz z aplikacją, umożliwiając wnioskowanie na urządzeniu.

Lokalny serwer internetowy interfejsu API REST

Lokalny serwer internetowy interfejsu API REST umożliwia tworzenie i testowanie aplikacji lokalnie bez konieczności polegania na usłudze modelu sztucznej inteligencji w chmurze. Możesz wchodzić w interakcje z serwerem sieci Web przy użyciu RESTlub z biblioteką klienta OpenAI:

REST
Python
C#

Oto przykładowa treść żądania REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Notatka

Może być konieczne zaktualizowanie pola modelu do nazwy pobranego modelu.

Punkt końcowy można przetestować przy użyciu narzędzia API REST, takiego jak Postman lub narzędziem CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Zainstaluj bibliotekę języka Python openAI:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

Dodaj bibliotekę klienta platformy Azure OpenAI dla platformy .NET do projektu przy użyciu narzędzia NuGet:

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Dodaj plik C# o nazwie OverridePolicy.cs do projektu i wklej następujący kod:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

Następnie wklej następujący kod do pliku Program.cs :

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Notatka

Jeśli pobrano wersję CPU modelu Phi3, należy zaktualizować pole modelu na phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Środowisko uruchomieniowe ONNX

Interfejs API generowania środowiska uruchomieniowego ONNX zapewnia generatywną pętlę AI dla modeli ONNX, w tym wnioskowanie przy użyciu środowiska uruchomieniowego ONNX, przetwarzanie logitów, przeszukiwanie i próbkowanie oraz zarządzanie pamięcią podręczną KV. Można wywołać metodę generate() wysokiego poziomu lub uruchomić każdą iterację modelu w pętli, generując jeden token jednocześnie i opcjonalnie aktualizując parametry generowania wewnątrz pętli.

Ma obsługę wyszukiwania chciwości/belki i TopP, próbkowania TopK w celu generowania sekwencji tokenów i wbudowanego przetwarzania logits, takich jak kary powtórzeń. Poniższy kod to przykład wykorzystania środowiska uruchomieniowego ONNX w aplikacjach.

REST
Python
C#

Zapoznaj się z przykładem pokazanym na REST lokalnym serwerze internetowym interfejsu API. Serwer internetowy AI Toolkit REST jest zbudowany przy użyciu ONNX Runtime.

Zainstaluj narzędzie Numpy:

pip install numpy

Następnie zainstaluj pakiet języka Python środowiska uruchomieniowego ONNX w projekcie zgodnie z platformą i dostępnością procesora GPU:

Platforma	Dostępny procesor GPU	PyPI
Windows	Tak (AMD, NVIDIA, Intel, Qualcomm, a także inne obsługiwane)	`pip install --pre onnxruntime-genai-directml`
Linux	Tak (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Windows Linux	Nie	`pip install --pre onnxruntime-genai`

Napiwek

Zalecamy zainstalowanie pakietów języka Python w środowisku wirtualnym przy użyciu venv lub conda.

Następnie skopiuj i wklej następujący kod do pliku w języku Python o nazwie app.py:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Aby uruchomić aplikację języka Python, użyj następującego kodu:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Notatka

AI Toolkit buforuje modele do ukrytego folderu o nazwie .aitk w katalogu użytkownika — należy zaktualizować ścieżkę używaną dla parametru --model, aby wskazywała na lokalizację folderu zawierającego plik modelu ONNX. Na przykład ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Zainstaluj pakiet NuGet środowiska uruchomieniowego ONNX w projekcie zgodnie z platformą i dostępnością procesora GPU:

Platforma	Dostępny procesor GPU	NuGet
Windows	Tak (AMD, NVIDIA, Intel, Qualcomm, a także inne obsługiwane)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Linux	Tak (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
Windows Linux	Nie	Microsoft.ML.OnnxRuntimeGenAI

Skopiuj i wklej następujący kod do pliku C#:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Notatka

Model AI Toolkit buforuje pobrane modele do ukrytego folderu o nazwie .aitk w katalogu użytkownika — należy zaktualizować modelPath w kodzie, aby wskazywała lokalizację folderu , który zawiera plik modelu ONNX. Na przykład ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Następny krok

Dostrajaj model za pomocą zestawu narzędzi AI Toolkit VS Code

Udostępnij za pośrednictwem

Rozpocznij korzystanie z AI Toolkit for Visual Studio Code

Warunki wstępne

Instalować

Pobieranie modelu z wykazu

Uruchamianie modelu na placu zabaw

Integrowanie modelu sztucznej inteligencji z aplikacją

Lokalny serwer internetowy interfejsu API REST

Środowisko uruchomieniowe ONNX

Następny krok

Opinia

Dodatkowe zasoby