Mulai menggunakan AI Toolkit untuk Visual Studio Code

2025-05-30

Toolkit AI untuk VS Code (AI Toolkit) adalah VS Code ekstensi yang memungkinkan Anda mengunduh, menguji, menyempurnakan, dan menyebarkan model AI dengan aplikasi Anda atau di cloud. Untuk informasi selengkapnya, lihat gambaran umum Toolkit AI.

Catatan

Dokumentasi dan tutorial tambahan untuk Toolkit AI VS Code tersedia dalam dokumentasi VS Code: AI Toolkit untuk Visual Studio Code. Anda akan menemukan panduan tentang Playground, bekerja dengan model AI, menyempurnakan model lokal dan berbasis cloud, dan banyak lagi.

Dalam artikel ini, Anda akan mempelajari cara:

Instal Toolkit AI untuk VS Code
Mengunduh model dari katalog
Jalankan model secara lokal menggunakan taman bermain
Mengintegrasikan model AI ke dalam aplikasi Anda menggunakan REST atau Runtime ONNX

Prasyarat

VS Code harus diinstal. Untuk informasi selengkapnya, lihat Mengunduh VS Code dan Memulai dengan VS Code.

Saat menggunakan fitur AI, kami sarankan Anda meninjau: Mengembangkan Aplikasi dan Fitur AI Generatif yang Bertanggung Jawab di Windows.

Instal

Toolkit AI tersedia di Visual Studio Marketplace dan dapat diinstal seperti ekstensi lainnyaVS Code. Jika Anda tidak terbiasa menginstal VS Code ekstensi, ikuti langkah-langkah berikut:

Di Bilah Aktivitas di VS Codepilih Ekstensi
Di bilah Pencarian Ekstensi ketik "AI Toolkit"
Pilih "Toolkit AI untuk kode Visual Studio"
Pilih Instal

Setelah ekstensi diinstal, Anda akan melihat ikon Toolkit AI muncul di Bilah Aktivitas Anda.

Mengunduh model dari katalog

Bilah sisi utama Toolkit AI diatur ke dalam Model Saya, Katalog, Alat, dan Bantuan dan Umpan Balik. Fitur Playground, Bulk Run, Evaluation, dan Fine tuning tersedia di bagian Alat . Untuk mulai memilih Model dari bagian Katalog untuk membuka jendela Katalog Model :

Cuplikan layar jendela katalog model Toolkit AI di VS Code

Anda bisa menggunakan filter di bagian atas katalog untuk memfilter menurut Dihosting oleh, Penerbit, Tugas, dan Jenis model. Ada juga sakelar Fine-Tuning Support yang dapat Anda aktifkan untuk hanya menampilkan model yang dapat dioptimalkan.

Petunjuk / Saran

Filter Jenis model memungkinkan Anda hanya menampilkan model yang akan berjalan secara lokal pada CPU, GPU, atau NPU atau model yang hanya mendukung Akses jarak jauh. Untuk performa yang dioptimalkan pada perangkat yang memiliki setidaknya satu GPU, pilih jenis model Eksekusi lokal dengan GPU. Ini membantu menemukan model yang dioptimalkan untuk akselerator DirectML .

Untuk memeriksa apakah Anda memiliki GPU di perangkat Windows Anda, buka Task Manager lalu pilih tab Performa . Jika Anda memiliki GPU, GPU akan tercantum di bawah nama seperti "GPU 0" atau "GPU 1".

Catatan

Untuk Copilot+ PC dengan Neural Processing Unit (NPU), Anda dapat memilih model yang dioptimalkan untuk akselerator NPU. Model Deepseek R1 Distilled dioptimalkan untuk NPU dan tersedia untuk diunduh pada PC Copilot+ yang didukung Snapdragon yang menjalankan Windows 11. Untuk informasi selengkapnya, lihat Menjalankan model Distilled DeepSeek R1 secara lokal di PC Copilot+, yang didukung oleh Windows AI Foundry.

Model berikut saat ini tersedia untuk perangkat Windows dengan satu atau beberapa GPU:

Mistral 7B (DirectML - Kecil, Cepat)
Phi 3 Mini 4K (DirectML - Kecil, Cepat)
Phi 3 Mini 128K (DirectML - Kecil, Cepat)

Pilih model Phi 3 Mini 4K dan klik Unduh:

Catatan

Model Phi 3 Mini 4K berukuran sekitar 2GB-3GB. Tergantung pada kecepatan jaringan Anda, dibutuhkan beberapa menit untuk mengunduh.

Menjalankan model di taman bermain

Setelah model Anda diunduh, model akan muncul di bagian Model Saya di bawah Model lokal. Klik kanan model dan pilih Muat di Playground dari menu konteks:

Cuplikan layar item menu

Di antarmuka obrolan playground masukkan pesan berikut diikuti dengan tombol Enter :

Pilihan taman bermain

Anda akan melihat respons model yang dialirkan kembali kepada Anda:

Respons pembuatan

Peringatan

Jika Anda tidak memiliki GPU yang tersedia di perangkat Anda tetapi Anda memilih model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, respons model akan sangat lambat. Anda harus mengunduh versi yang dioptimalkan CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Dimungkinkan juga untuk mengubah:

Instruksi Konteks: Bantu model memahami gambaran yang lebih besar tentang permintaan Anda. Ini bisa berupa informasi latar belakang, contoh/demonstrasi tentang apa yang Anda inginkan atau menjelaskan tujuan tugas Anda.
Parameter inferensi:
- Panjang respons maksimum: Jumlah maksimum token yang akan dikembalikan model.
- Suhu: Suhu model adalah parameter yang mengontrol seberapa acak output model bahasa tersebut. Suhu yang lebih tinggi berarti model mengambil lebih banyak risiko, memberi Anda campuran kata-kata yang beragam. Di sisi lain, suhu yang lebih rendah membuat model memainkannya aman, menempel pada respons yang lebih fokus dan dapat diprediksi.
- P Teratas: Juga dikenal sebagai pengambilan sampel nukleus, adalah pengaturan yang mengontrol berapa banyak kemungkinan kata atau frasa yang dipertimbangkan model bahasa saat memprediksi kata berikutnya
- Penalti frekuensi: Parameter ini memengaruhi seberapa sering model mengulangi kata atau frasa dalam outputnya. Semakin tinggi nilai (lebih dekat ke 1,0) mendorong model untuk menghindari pengulangan kata atau frasa.
- Penalti kehadiran: Parameter ini digunakan dalam model AI generatif untuk mendorong keragaman dan kekhususan dalam teks yang dihasilkan. Nilai yang lebih tinggi (lebih dekat ke 1,0) mendorong model untuk menyertakan lebih banyak token baru dan beragam. Nilai yang lebih rendah lebih mungkin bagi model untuk menghasilkan frasa umum atau klise.

Mengintegrasikan model AI ke dalam aplikasi Anda

Ada dua opsi untuk mengintegrasikan model ke dalam aplikasi Anda:

AI Toolkit dilengkapi dengan server web API lokal REST yang menggunakan format penyelesaian obrolan OpenAI. Ini memungkinkan Anda menguji aplikasi Anda secara lokal - menggunakan titik http://127.0.0.1:5272/v1/chat/completions akhir - tanpa harus mengandalkan layanan model AI cloud. Gunakan opsi ini jika Anda ingin beralih ke titik akhir cloud dalam produksi. Anda dapat menggunakan pustaka klien OpenAI untuk menyambungkan ke server web.
Menggunakan Runtime ONNX. Gunakan opsi ini jika Anda ingin mengirimkan model bersama aplikasi Anda dengan inferensi pada perangkat.

Server web API lokal REST

Server web API lokal REST memungkinkan Anda untuk membangun dan menguji aplikasi Anda secara lokal tanpa harus mengandalkan layanan model AI cloud. Anda dapat berinteraksi dengan server web menggunakan REST, atau dengan pustaka klien OpenAI:

Berikut adalah isi contoh untuk permintaan Anda REST :

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Catatan

Anda mungkin perlu memperbarui bidang model ke nama model yang Anda unduh.

Anda dapat menguji REST titik akhir menggunakan alat API seperti Postman atau utilitas CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Instal pustaka OpenAI Python:

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

Tambahkan pustaka klien Azure OpenAI untuk .NET ke proyek Anda menggunakan NuGet:

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

Tambahkan file C# yang disebut OverridePolicy.cs ke proyek Anda dan tempelkan kode berikut:

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

Selanjutnya, tempelkan kode berikut ke dalam file Program.cs Anda:

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

Catatan

Jika Anda mengunduh versi CPU dari model Phi3, Anda perlu memperbarui bidang model ke Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Runtime ONNX

ONNX Runtime Generate API menyediakan perulangan AI generatif untuk model ONNX, termasuk inferensi dengan ONNX Runtime, pemrosesan logit, pencarian dan pengambilan sampel, dan manajemen cache KV. Anda dapat memanggil metode tingkat generate() tinggi, atau menjalankan setiap iterasi model dalam perulangan, menghasilkan satu token pada satu waktu, dan secara opsional memperbarui parameter pembuatan di dalam perulangan.

Ini memiliki dukungan untuk pencarian serakah/balok dan TopP, pengambilan sampel TopK untuk menghasilkan urutan token dan pemrosesan logit bawaan seperti penalti pengulangan. Kode berikut adalah contoh bagaimana Anda dapat memanfaatkan runtime ONNX di aplikasi Anda.

Silakan lihat contoh yang ditampilkan di REST web API Lokal. Server web AI Toolkit REST dibangun menggunakan OnNX Runtime.

Instal Numpy:

pip install numpy

Selanjutnya, instal paket ONNX Runtime Python ke dalam proyek Anda sesuai dengan platform dan ketersediaan GPU Anda:

Plattform	Tersedia GPU	PyPI
Windows	Ya (AMD, NVIDIA, Intel, Qualcomm, ditambah yang lain didukung)	`pip install --pre onnxruntime-genai-directml`
Linux	Ya (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
Windows Linux	Tidak.	`pip install --pre onnxruntime-genai`

Petunjuk / Saran

Sebaiknya instal paket Python ke lingkungan virtual menggunakan venv atau conda.

Selanjutnya, salin dan tempel kode berikut ke dalam file Python bernama app.py:

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

Untuk menjalankan aplikasi Python, gunakan kode berikut:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

Catatan

Model yang diunduh oleh AI Toolkit dicache ke dalam folder tersembunyi bernama .aitk di direktori pengguna Anda. Anda perlu memperbarui jalur yang digunakan untuk parameter --model ke lokasi folder yang berisi file model ONNX. Misalnya ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Instal paket ONNX Runtime NuGet ke dalam proyek Anda sesuai dengan platform dan ketersediaan GPU Anda:

Plattform	Tersedia GPU	Nuget
Windows	Ya (AMD, NVIDIA, Intel, Qualcomm, ditambah yang lain didukung)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Linux	Ya (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
Windows Linux	Tidak.	Microsoft.ML.OnnxRuntimeGenAI

Salin dan tempel kode berikut ke dalam file C#Anda:

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

Catatan

Model cache AI Toolkit diunduh ke folder tersembunyi bernama .aitk di direktori pengguna Anda - Anda harus memperbarui modelPath dalam kode ke lokasi folder yang berisi file model ONNX. Misalnya ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/

Langkah Selanjutnya

Menyempurnakan model dengan Toolkit AI untuk VS Code

Bagikan melalui

Mulai menggunakan AI Toolkit untuk Visual Studio Code

Prasyarat

Instal

Mengunduh model dari katalog

Menjalankan model di taman bermain

Mengintegrasikan model AI ke dalam aplikasi Anda

Server web API lokal REST

Runtime ONNX

Langkah Selanjutnya

Saran dan Komentar

Sumber Daya Tambahan: