Visual Studio Code için AI Toolkit'i kullanmaya başlama

2025-05-30

VS Code için AI Toolkit (AI Toolkit), yapay zeka modellerini indirmenizi, test etmenizi, ince ayar yapmanızı ve uygulamalarınızla veya bulutta dağıtmanızı sağlayan VS Code bir uzantıdır. Daha fazla bilgi için bkz . AI Toolkit'e genel bakış.

Not

VS Code için AI Toolkit'in ek belgelerine ve öğreticilere, VS Code belgelerinde Visual Studio Code için AI Toolkit bölümünden ulaşabilirsiniz. Playground, yapay zeka modelleriyle çalışma, yerel ve bulut tabanlı modellerde ince ayarlama ve daha fazlası hakkında yönergeler bulacaksınız.

Bu makalede şunları nasıl yapacağınızı öğreneceksiniz:

VS Code için AI Araç Seti'ni yükleme
Katalogdan model indirme
Oyun alanı kullanarak modeli yerel olarak çalıştırma
REST veya ONNX Çalışma Zamanı'nı kullanarak yapay zeka modelini uygulamanızla tümleştirme

Önkoşullar

VS Code yüklü olmalıdır. Daha fazla bilgi için bkz. İndirme VS Code ve kullanmaya VS Codebaşlama.

Yapay zeka özelliklerini kullanırken şunları gözden geçirmenizi öneririz: Windows'ta Sorumlu Üretken Yapay Zeka Uygulamaları ve Özellikleri Geliştirme.

Yüklemek

AI Toolkit, Visual Studio Market'te kullanılabilir ve diğer VS Code uzantılar gibi yüklenebilir. VS Code uzantılarını yükleme konusunda bilginiz yoksa şu adımları izleyin:

Içindeki Etkinlik Çubuğu'nda VS Code seçin
Uzantılar Arama çubuğuna "AI Toolkit" yazın
"Visual Studio kodu için AI Araç Seti" öğesini seçin
Yükle'yi seçin

Uzantı yüklendikten sonra Etkinlik Çubuğunuzda Yapay Zeka Araç Seti simgesini görürsünüz.

Katalogdan model indirme

Yapay Zeka Araç Seti'nin birincil kenar çubuğu Modellerim, Katalog, Araçlar ve Yardım ve Geri Bildirim şeklinde düzenlenmiştir. Oyun Alanı, Toplu Çalıştırma, Değerlendirme ve İnce ayar özellikleri Araçlar bölümünde bulunur. Başlamak için Katalogbölümünden Modeller'i seçerek Model Kataloğu penceresini açın:

içindeki AI Toolkit model kataloğu penceresinin ekran görüntüsü VS Code

Barındırılan,Yayımcı, Görevler ve Model türüne göre filtrelemek için kataloğun üst kısmındaki filtreleri kullanabilirsiniz. Ayrıca, yalnızca ince ayarlı modelleri göstermek için açabileceğiniz bir Fine-Tuning Destek anahtarı da vardır.

Bahşiş

Model türü filtresi yalnızca CPU, GPU veya NPU üzerinde yerel olarak çalışacak modelleri veya yalnızca Uzaktan erişimi destekleyen modelleri göstermenizi sağlar. En az bir GPU'ya sahip cihazlarda iyileştirilmiş performans için Yerel çalıştırma w/ GPU model türünü seçin. Bu, DirectML hızlandırıcısı için iyileştirilmiş bir model bulmaya yardımcı olur.

Windows cihazınızda GPU olup olmadığını denetlemek için görev yöneticisi açın ve Performans sekmesini seçin. GPU'larınız varsa, bunlar "GPU 0" veya "GPU 1" gibi adlar altında listelenir.

Not

NPU Sinir İşlem Birimi (NPU) olan Copilot+ bilgisayarlar için NPU hızlandırıcısı için iyileştirilmiş modelleri seçebilirsiniz. Deepseek R1 Distilled modeli NPU için optimize edilmiştir ve Windows 11 çalıştıran Snapdragon destekli Copilot+ bilgisayarlarda indirilebilir. Daha fazla bilgi için bkz . Windows AI Foundry tarafından desteklenen Copilot+ bilgisayarlarda Distilled DeepSeek R1 modellerini yerel olarak çalıştırma.

Şu anda bir veya daha fazla GPU'ya sahip Windows cihazlarında aşağıdaki modeller kullanılabilir:

Mistral 7B (DirectML - Küçük, Hızlı)
Phi 3 Mini 4K (DirectML - Küçük, Hızlı)
Phi 3 Mini 128K (DirectML - Küçük, Hızlı)

Phi 3 Mini 4K modelini seçin ve İndir'e tıklayın:

Not

Phi 3 Mini 4K modeli yaklaşık 2 GB-3 GB boyutundadır. Ağ hızınıza bağlı olarak indirme işlemi birkaç dakika sürebilir.

Modeli oyun alanında çalıştırma

Modeliniz indirildikten sonra, Yerel modeller altındaki Modellerim bölümünde görünür. Modele sağ tıklayın ve bağlam menüsünden Oyun Alanında Yükle'yi seçin:

Oyun Alanında Yükle bağlam menüsü öğesinin ekran görüntüsü

Oyun alanının sohbet arabirimine aşağıdaki iletiyi ve ardından Enter tuşunu girin :

Oyun alanı seçimi

Model yanıtının size geri akışla aktarılmış olduğunu görmeniz gerekir:

Üretim yanıtı

Uyarı

Cihazınızda GPU yoksa ancak Phi-3-mini-4k-directml-int4-awq-block-128-onnx modelini seçtiyseniz, model yanıtı çok yavaş . Bunun yerine CPU için iyileştirilmiş sürümü indirmeniz gerekir: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Şunları değiştirmek de mümkündür:

Bağlam Yönergeleri: Modelin isteğinizin büyük resmini anlamasına yardımcı olun. Bu, arka plan bilgileri, istediğiniz şeyin örnekleri/tanıtımları veya görevinizin amacını açıklamak olabilir.
Çıkarım parametreleri:
- Maksimum yanıt uzunluğu: Modelin döndüreceği en fazla belirteç sayısı.
- Sıcaklık: Model sıcaklığı, bir dil modelinin çıkışının ne kadar rastgele olduğunu denetleen bir parametredir. Daha yüksek bir sıcaklık, modelin daha fazla risk alması ve size daha çeşitli sözcükler sunması anlamına gelir. Öte yandan düşük bir sıcaklık, modelin daha odaklanmış ve öngörülebilir yanıtlara bağlı kalarak güvenli bir şekilde oynamasını sağlar.
- Üst P: Çekirdek örnekleme olarak da bilinen ayar, dil modelinin bir sonraki sözcüğü tahmin ederken dikkate alınacak olası sözcük veya tümcecik sayısını denetleen bir ayardır
- Sıklık cezası: Bu parametre, modelin çıktısında sözcükleri veya tümcecikleri ne sıklıkta yineleyeceğini etkiler. Değer ne kadar yüksek olursa (1.0'a yakın), modeli yinelenen sözcüklerden veya tümceciklerden kaçınmaya teşvik eder.
- Varlık cezası: Bu parametre, üretilen metinde çeşitliliği ve özgüllüğü teşvik etmek için üretken yapay zeka modellerinde kullanılır. Daha yüksek bir değer (1,0'a yakın), modeli daha yeni ve çeşitli belirteçler eklemeye teşvik eder. Daha düşük bir değer, modelin ortak veya klişe tümceleri oluşturma olasılığını artırır.

Yapay zeka modelini uygulamanıza tümleştirme

Modeli uygulamanızla tümleştirmek için iki seçenek vardır:

AI Toolkit,OpenAI sohbet tamamlamaları biçimini kullanan yerel API web sunucusu ile birlikte gelir. Bu, bulut yapay zeka modeli hizmetine güvenmek zorunda kalmadan uç nokta http://127.0.0.1:5272/v1/chat/completions kullanarak uygulamanızı yerel olarak test etmenizi sağlar. Üretimde bir bulut uç noktasına geçmek istiyorsanız bu seçeneği kullanın. Web sunucusuna bağlanmak için OpenAI istemci kitaplıklarını kullanabilirsiniz.
ONNX Çalışma Zamanının kullanımı . Modeli, cihazda çıkarım yapacak şekilde uygulamanızla birlikte göndermeyi planlıyorsanız bu seçeneği kullanın.

Yerel REST API web sunucusu

Yerel REST API web sunucusu, bulut yapay zeka modeli hizmetine güvenmek zorunda kalmadan uygulamanızı yerel olarak derlemenize ve test etmenizi sağlar. RESTkullanarak veya openAI istemci kitaplığıyla web sunucusuyla etkileşim kurabilirsiniz:

REST isteğiniz için örnek bir metin aşağıdadır:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Not

Model alanını indirdiğiniz modelin adıyla güncelleştirmeniz gerekebilir.

REST veya CURL yardımcı programı gibi bir API aracı kullanarak uç noktasını test edebilirsiniz:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

OpenAI Python kitaplığını yükleyin:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

NuGet kullanarak projenize .NET için Azure OpenAI istemci kitaplığını ekleyin:

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Projenize OverridePolicy.cs adlı bir C# dosyası ekleyin ve aşağıdaki kodu yapıştırın:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

Ardından, aşağıdaki kodu Program.cs dosyanıza yapıştırın:

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Not

Phi3 modelinin CPU sürümünü indirdiyseniz, model alanını Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx olarak güncelleştirmeniz gerekir.

ONNX Çalışma Zamanı

ONNX Çalışma Zamanı Oluşturma API'si ONNX Çalışma Zamanı ile çıkarım, logits işleme, arama ve örnekleme ve KV önbellek yönetimi dahil olmak üzere ONNX modelleri için üretken yapay zeka döngüsü sağlar. Üst düzey bir generate() yöntemi çağırabilir veya modelin her yinelemesini döngüde çalıştırabilir, bir kerede bir belirteç oluşturabilir ve isteğe bağlı olarak döngü içindeki oluşturma parametrelerini güncelleştirebilirsiniz.

Doyumsuz/kirişli arama ve TopP, belirteç dizileri oluşturmak için TopK örnekleme ve yineleme cezaları gibi yerleşik logit işleme desteğine sahiptir. Aşağıdaki kod, uygulamalarınızda ONNX çalışma zamanından nasıl yararlanabileceğinize ilişkin bir örnektir.

Lütfen Yerel REST API web sunucusunda gösterilen örne bakın. AI Toolkit REST web sunucusu ONNX Çalışma Zamanı kullanılarak oluşturulur.

Numpy'yi yükleme:

pip install numpy

Ardından, platformunuza ve GPU kullanılabilirliğine göre ONNX Çalışma Zamanı Python paketini projenize yükleyin:

Peron	GPU Kullanılabilir	PyPI
Windows	Evet (AMD, NVIDIA, Intel, Qualcomm ve diğerleri desteklenir)	`pip install --pre onnxruntime-genai-directml`
Linux işletim sistemi	Evet (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Windows Linux işletim sistemi	Hayır	`pip install --pre onnxruntime-genai`

Bahşiş

Python paketlerini venv veya conda kullanarak bir sanal ortama yüklemenizi öneririz.

Ardından, aşağıdaki kodu kopyalayıp app.py adlı bir Python dosyasına yapıştırın:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Python uygulamasını çalıştırmak için aşağıdaki kodu kullanın:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Not

** AI Toolkit, model indirmelerini kullanıcı dizininizdeki .aitk adlı gizli bir klasöre önbelleğe alır - --model parametresi için kullanılan yolu, ONNX model dosyasını içeren klasörün konumuna güncellemeniz gerekecektir. Örneğin ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

ONNX Runtime NuGet paketini platformunuza ve GPU kullanılabilirliğine göre projenize yükleyin:

Peron	GPU Kullanılabilir	NuGet
Windows	Evet (AMD, NVIDIA, Intel, Qualcomm ve diğerleri desteklenir)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Linux işletim sistemi	Evet (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
Windows Linux işletim sistemi	Hayır	Microsoft.ML.OnnxRuntimeGenAI

Aşağıdaki kodu kopyalayıp C# dosyanıza yapıştırın:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Not

AI Toolkit, modeli kullanıcı dizininizdeki adlı gizli bir klasöre önbelleğe alır. Koddaki ONNX model dosyasını içeren klasörünün konumuna güncelleştirmeniz gerekir. Örneğin ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Sonraki Adım

AI Toolkit ile modelde ince ayar yapma VS Code