Začněte s nástrojem AI pro Visual Studio Code

2025-05-30

AI Toolkit for VS Code (AI Toolkit) je rozšíření VS Code, které umožňuje stahovat, testovat, doladit a nasazovat modely AI s vašimi aplikacemi nebo v cloudu. Další informace najdete v přehledu sady AI Toolkit.

Poznámka

Další dokumentace a tutoriály pro nástroj AI Toolkit pro VS Code jsou k dispozici v dokumentaci VS Code: AI Toolkit pro Visual Studio Code. Najdete zde pokyny pro Dětské hřiště, práci s modely AI, vyladění místních a cloudových modelů a další.

V tomto článku se dozvíte, jak:

Nainstalujte sadu AI Toolkit pro VS Code
Stažení modelu z katalogu
Místní spuštění modelu pomocí dětského hřiště
Integrace modelu AI do aplikace pomocí REST nebo modulu RUNTIME ONNX

Požadavky

VS Code musí být nainstalována. Další informace naleznete v tématu Stažení VS Code a Začínáme s VS Code.

Při používání funkcí umělé inteligence doporučujeme zkontrolovat: Vývoj zodpovědného generování aplikací a funkcí umělé inteligence ve Windows.

Nainstalovat

Sada AI Toolkit je k dispozici na webu Visual Studio Marketplace a dá se nainstalovat stejně jako jakékoli jiné VS Code rozšíření. Pokud neznáte instalaci rozšíření VS Code, postupujte takto:

Na panelu aktivit vyberte VS CodeRozšíření.
Na panelu Hledání rozšíření zadejte "AI Toolkit"
Vyberte „AI Toolkit for Visual Studio Code“.
Vyberte Nainstalovat.

Po instalaci rozšíření se na panelu aktivit zobrazí ikona AI Toolkit.

Stažení modelu z katalogu

Primární boční panel sady AI Toolkit je uspořádaný do části Moje modely, Katalog, Nástroje a Nápověda a Zpětná vazba. Funkce dětského hřiště, hromadného spuštění, vyhodnocení a jemného ladění jsou k dispozici v části Nástroje . Pokud chcete začít vybírat modely z oddílu Katalog, otevřete okno Katalog modelů :

Snímek obrazovky s oknem katalogu modelů AI Toolkit v okně VS Code

Filtry v horní části katalogu můžete použít k filtrování podle typu hostitele , vydavatele , úkolů a typu modelu . K dispozici je také přepínač Fine-Tuning Podpora, který můžete zapnout, aby se zobrazovaly jenom modely, které je možné doladit.

Spropitné

Filtr typ modelu umožňuje zobrazit jenom modely, které se budou spouštět místně na procesoru, GPU nebo NPU nebo modelech, které podporují pouze vzdálený přístup. Pokud chcete optimalizovat výkon na zařízeních s alespoň jedním GPU, vyberte typ modelu místního spuštění s GPU. To pomáhá najít model optimalizovaný pro akcelerátor DirectML .

Pokud chcete zkontrolovat, jestli máte na zařízení s Windows GPU, otevřete Správce úloh a pak vyberte kartu Výkon. Pokud máte GPU, budou uvedené pod názvy, jako je GPU 0 nebo GPU 1.

Poznámka

U počítačů Copilot+ s neurálním procesorem (NPU) můžete vybrat modely optimalizované pro akcelerátor NPU. Model Deepseek R1 Distilled je optimalizovaný pro NPU a je k dispozici ke stažení na počítačích s Windows 11 poháněných procesorem Snapdragon s technologií Copilot+. Další informace najdete v tématu Spuštění modelů DeepSeek R1 místně na počítačích Copilot+ s technologií Windows AI Foundry.

Pro zařízení s Windows s jedním nebo více grafickými procesory jsou aktuálně k dispozici následující modely:

Mistral 7B (DirectML - Malý, Rychlý)
Phi 3 Mini 4K (DirectML – Malý, Rychlý)
Phi 3 Mini 128K (DirectML - Malý, Rychlý)

Vyberte model Phi 3 Mini 4K a klikněte na Tlačítko Stáhnout:

Poznámka

Model Phi 3 Mini 4K je velikost přibližně 2 GB-3 GB. V závislosti na rychlosti vaší sítě může stažení trvat několik minut.

Spusťte model v testovacím prostředí

Jakmile se váš model stáhne, zobrazí se v části Moje modely v části Místní modely. Klikněte pravým tlačítkem myši na model a v místní nabídce vyberte Načíst v Playgroundu :

Snímek obrazovky s položkou místní nabídky Načíst v dětském prostředí

V rozhraní chatu dětského hřiště zadejte následující zprávu následovanou klávesou Enter :

Výběr dětského hřiště

Měla by se zobrazit odpověď modelu streamovaná zpět vám:

Odezva generace

Varování

Pokud na svém zařízení nemáte k dispozici GPU, ale vybrali jste model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, bude odezva modelu velmi pomalá. Místo toho byste měli stáhnout verzi optimalizovanou pro procesor: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Je také možné změnit:

Kontextové pokyny: Pomozte modelu porozumět širšímu obrázku vaší žádosti. Může se jednat o základní informace, příklady nebo ukázky toho, co chcete, nebo vysvětlit účel úkolu.
Parametry odvození:
- Maximální délka odpovědi: Maximální počet tokenů, které model vrátí.
- Teplota: Teplota modelu je parametr, který řídí, jak náhodný je výstup jazykového modelu. Vyšší teplota znamená, že model riskuje více rizik a poskytuje vám různorodou kombinaci slov. Na druhou stranu nižší teplota způsobí, že model bude jednat opatrně a bude se držet zaměřených a předvídatelných odpovědí.
- Top P: Také známé jako vzorkování jádra, je nastavení, které řídí, kolik možných slov nebo frází jazykový model zvažuje při předpovídání dalšího slova.
- Trest frekvence: Tento parametr ovlivňuje, jak často model opakuje slova nebo fráze ve výstupu. Čím vyšší je hodnota (blíže 1,0), podporuje model, aby se zabránilo opakování slov nebo frází.
- Trest přítomnosti: Tento parametr se používá v generovaných modelech AI k podpoře rozmanitosti a specifikity ve generovaném textu. Vyšší hodnota (blíže k hodnotě 1,0) podporuje model, aby zahrnoval více nových a různorodých tokenů. Nižší hodnota znamená vyšší pravděpodobnost, že model vygeneruje běžné nebo klišé fráze.

Integrace modelu AI do aplikace

Model můžete integrovat do aplikace dvěma způsoby:

Sada AI Toolkit se dodává s místním REST webovým serverem rozhraní API , který používá formát dokončování chatu OpenAI. To vám umožní otestovat aplikaci místně – pomocí koncového bodu http://127.0.0.1:5272/v1/chat/completions – bez nutnosti spoléhat se na cloudovou službu modelu AI. Tuto možnost použijte, pokud chcete přejít na koncový bod cloudu v produkčním prostředí. Klientské knihovny OpenAI můžete použít k připojení k webovému serveru.
Pomocí ONNX Runtime. Tuto možnost použijte, pokud chcete model odeslat s aplikací s odvozováním na zařízení.

Místní webový server rozhraní API REST

Místní webový server rozhraní API REST umožňuje sestavit a otestovat aplikaci místně, aniž byste museli spoléhat na cloudovou službu modelu AI. S webovým serverem můžete pracovat pomocí RESTnebo s klientskou knihovnou OpenAI:

Tady je příklad textu požadavku REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Poznámka

Možná budete muset aktualizovat pole modelu na název modelu, který jste stáhli.

Koncový bod můžete otestovat REST pomocí nástroje rozhraní API, jako je Postman nebo nástroj CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Nainstalujte knihovnu OpenAI Python:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

Přidejte do projektu klientskou knihovnu Azure OpenAI pro .NET pomocí NuGetu:

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Přidejte do projektu soubor C# s názvem OverridePolicy.cs a vložte následující kód:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

Dále do souboru Program.cs vložte následující kód:

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Poznámka

Pokud jste stáhli verzi procesoru modelu Phi3, musíte aktualizovat pole modelu na Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

ONNX Runtime

Rozhraní API pro generování modulu runtime ONNX poskytuje generativní smyčku AI pro modely ONNX, včetně provádění inferencí pomocí ONNX Runtime, zpracování logitů, vyhledávacích a vzorkovacích metod a správy mezipaměti KV. Můžete volat metodu vysoké úrovně generate() nebo spustit každou iteraci modelu ve smyčce, vygenerovat jeden token najednou a volitelně aktualizovat parametry generování uvnitř smyčky.

Podporuje greedy/beam vyhledávání a TopP, TopK vzorkování za účelem generování sekvencí tokenů a integrovaného zpracování logitů, jako jsou penalizace opakování. Následující kód je příkladem toho, jak můžete ve svých aplikacích využít modul runtime ONNX.

Projděte si příklad uvedený na webovém serveru místního REST rozhraní API. Webový server REST AI Toolkit se sestavuje pomocí modulu runtime ONNX.

Nainstalujte Numpy:

pip install numpy

Dále nainstalujte balíček ONNX Runtime pro Python do svého projektu podle dostupnosti vaší platformy a GPU.

Platforma	K dispozici GPU	PyPI
Windows	Ano (AMD, NVIDIA, Intel, Qualcomm a další podporované)	`pip install --pre onnxruntime-genai-directml`
Operační systém Linux	Ano (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Windows Operační systém Linux	Ne	`pip install --pre onnxruntime-genai`

Spropitné

Balíčky Pythonu doporučujeme nainstalovat do virtuálního prostředí pomocí venv nebo conda.

Potom zkopírujte a vložte následující kód do souboru Pythonu s názvem app.py:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Ke spuštění aplikace v Pythonu použijte následující kód:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Poznámka

Sada AI Toolkit ukládá do mezipaměti model stažený do skryté složky s názvem .aitk ve vašem uživatelském adresáři – budete muset aktualizovat cestu použitou pro parametr --model do umístění složky obsahující soubor modelu ONNX. Například ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Nainstalujte do projektu balíček NuGet onNX Runtime podle dostupnosti platformy a GPU:

Platforma	K dispozici GPU	NuGet
Windows	Ano (AMD, NVIDIA, Intel, Qualcomm a další podporované)	Microsoft.ML.OnnxRuntimeGenai.DirectML
Operační systém Linux	Ano (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenai.Cuda
Windows Operační systém Linux	Ne	Microsoft.ML.OnnxRuntimeGenAI

Zkopírujte a vložte do souboru C#následující kód:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Poznámka

Sada AI Toolkit ukládá do mezipaměti stažení modelu do skryté složky pojmenované .aitk ve vašem uživatelském adresáři – budete muset aktualizovat modelPath v kódu na umístění složky, která obsahuje soubor modelu ONNX. Například ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Další krok

Vyladění modelu pomocí sady AI Toolkit for VS Code

Sdílet prostřednictvím

Začněte s nástrojem AI pro Visual Studio Code

Požadavky

Nainstalovat

Stažení modelu z katalogu

Spusťte model v testovacím prostředí

Integrace modelu AI do aplikace

Místní webový server rozhraní API REST

ONNX Runtime

Další krok

Váš názor

Další materiály