AI Toolkit for Visual Studio Code の概要

2025-05-30

AI Toolkit for VS Code (AI Toolkit) は、AI モデルをダウンロード、テスト、微調整し、アプリまたはクラウドにデプロイできるようにする、VS Code の拡張機能です。詳細については、「AI Toolkit overview (AI ツールキットの概要)」を参照してください。

注

AI Toolkit for VS Code のその他のドキュメントとチュートリアルについては、 VS Code ドキュメント「 AI Toolkit for Visual Studio Code」を参照してください。 Playground に関するガイダンス、AI モデルの操作、ローカルモデルとクラウドベースモデルの微調整などについて説明します。

この記事では、次の方法について学習します。

AI Toolkit for VS Code をインストールする
カタログからモデルをダウンロードする
プレイグラウンドを使用してモデルをローカルで実行する
REST または ONNX ランタイムを使用して AI モデルをアプリケーションに統合する

前提条件

VS Code をインストールする必要があります。詳細については、「VS Code をダウンロードする」と「VS Code の概要」を参照してください。

AI 機能を利用する場合は、「Windows でのレスポンシブル生成 AI アプリケーションと機能の開発」を確認することをお勧めします。

インストール

AI Toolkit は Visual Studio Marketplace で入手でき、他の VS Code 拡張機能と同様の方法でインストールできます。 VS Code 拡張機能のインストールに慣れていない場合は、次の手順に従ってください。

VS Code のアクティビティバーで、[拡張機能] を選択します。
拡張機能の検索バーに「AI Toolkit」と入力します。
[AI Toolkit for Visual Studio code] を選択します。
[インストール] を選択します。

拡張機能がインストールされると、アクティビティバーに AI Toolkit アイコンが表示されます。

カタログからモデルをダウンロードする

AI Toolkit のプライマリサイドバーは、マイモデル、カタログ、ツール、ヘルプとフィードバックに編成されています。 プレイグラウンドの、一括実行、評価、および 微調整 機能は、ツールの セクションで使用できます。作業を開始するには、[カタログ] セクションから [モデル を選択して、モデルカタログ ウィンドウを開きます。

VS Code の [AI Toolkit モデルカタログ] ウィンドウのスクリーンショット

カタログの上部にあるフィルターを使用すると、Hosted by、Publisher、Tasks、および モデルタイプでフィルターをかけることができます。また、Fine-Tuning サポート スイッチもあり、微調整できるモデルのみを表示するように切り替えることができます。

ヒント

モデルの種類 フィルターを使用すると、CPU、GPU、または NPU でローカルに実行されるモデル、またはリモートアクセス のみをサポートするモデル表示できます。少なくとも 1 つの GPU を持つデバイスのパフォーマンスを最適化するには、GPU を使用ローカル実行のモデルの種類を選択します。これは、DirectML アクセラレータ用に最適化されたモデルを見つけるのに役立ちます。

Windows デバイスに GPU があるかどうかをチェックするには、タスクマネージャーを開き、[パフォーマンス] タブを選択します。GPU がある場合は、"GPU 0" や "GPU 1" などの名前の下に表示されます。

注

ニューラル処理装置 (NPU) を備えた Copilot+ PC の場合は、NPU アクセラレータ用に最適化されたモデルを選択できます。 Deepseek R1 の蒸留モデルは NPU 用に最適化されており、Windows 11 を実行している Snapdragon 搭載の Copilot+ PC にダウンロードできます。詳細については、 Windows AI Foundry を利用した Copilot+ PC で、蒸留された DeepSeek R1 モデルをローカルで実行する方法に関するページを参照してください。

現在、1 つ以上の GPU を搭載した Windows デバイスでは、次のモデルを使用できます。

Mistral 7B (DirectML - 小型で高速)
Phi 3 Mini 4K (DirectML - 小型で高速)
Phi 3 Mini 128K (DirectML - 小型で高速)

Phi 3 Mini 4K モデルを選択し、[ダウンロード] をクリックします。

注

Phi 3 Mini 4K モデルのサイズは約 2 GB から 3 GB です。ネットワーク速度によっては、ダウンロードに数分かかる場合があります。

プレイグラウンドでモデルを実行する

モデルがダウンロードされると、ローカルモデルの [マイモデル] セクションに表示されます。モデルを右クリックし、コンテキストメニューから [プレイグラウンド に読み込む] を選択します。

[プレイグラウンドに読み込む] コンテキストメニュー項目のスクリーンショット

プレイグラウンドのチャットインターフェイスで、次のメッセージを入力し、Enter キーを押します。

プレイグラウンドの選択

モデルの応答がストリーミングされたことが確認できます。

生成応答

警告

デバイスで GPU を使用できないのに Phi-3-mini-4k-directml-int4-awq-block-128-onnx モデルを選択した場合、モデルの応答は非常に遅くなります。代わりに、CPU 最適化バージョンの Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx をダウンロードする必要があります。

また、以下を変更することもできます。

コンテキスト命令: モデルが要求の全体像を理解するのに役立ちます。これには、背景情報、必要なものの例/デモンストレーション、タスクの目的の説明などがあります。
推論パラメーター:
- 最大応答長: モデルが返すトークンの最大数。
- 温度: モデル温度は、言語モデルの出力をどの程度ランダムにするかを制御するパラメーターです。温度が高いほど、モデルはより大きなリスクを負い、多様な単語の組み合わせを提供します。一方、温度が低いほど、モデルは安全に役割を果たし、より焦点を絞った予測可能な応答で対応します。
- 最上位 P: 核サンプリングとも呼ばれる設定で、次の単語を予測するときに言語モデルが検討する単語または語句の数を制御します。
- 頻度ペナルティ: このパラメーターは、モデルが出力で単語や語句を繰り返す頻度に影響します。値が大きい (1.0 に近い) ほど、単語や語句を繰り返さないことがモデルに推奨されます。
- プレゼンスペナルティ: このパラメーターは、生成されるテキストの多様性と具体性を促進するために生成 AI モデルで使用されます。値が大きい (1.0 に近い) ほど、より斬新で多様なトークンを含めるようモデルに促します。より小さい値を指定すると、モデルで一般的なありきたりの語句が生成される可能性が高くなります。

AI モデルをアプリに統合する

モデルをアプリケーションに統合するには、次の 2 つのオプションがあります。

AI Toolkit には、RESTを使用するローカル API Web サーバーが付属しています。これにより、クラウド AI モデルサービスに依存することなく、エンドポイント http://127.0.0.1:5272/v1/chat/completions を使用してアプリケーションをローカルでテストすることができます。運用環境でクラウドエンドポイントに切り替える場合は、このオプションを使用します。 OpenAI クライアントライブラリを使用して、Web サーバーに接続できます。
ONNX ランタイムの使用。デバイスで推論機能を持つモデルをアプリケーションに配布する場合は、このオプションを使用します。

ローカル REST API Web サーバー

ローカル REST API Web サーバーを使用すると、クラウド AI モデルサービスに依存することなく、アプリケーションをローカルでビルドしてテストできます。 Web サーバーと対話するには、REST または OpenAI クライアントライブラリを使用します。

REST 要求の本文の例を次に示します。

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

注

モデルフィールドを、ダウンロードしたモデルの名前に更新することが必要になる場合があります。

REST や CURL ユーティリティなどの API ツールを使用して、エンドポイントをテストできます。

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

OpenAI Python ライブラリをインストールします。

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:5272/v1/",
    api_key="x" # required by API but not used
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "what is the golden ratio?",
        }
    ],
    model="Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
)

print(chat_completion.choices[0].message.content)

NuGet を使用して、NET 用 Azure OpenAI クライアントライブラリをプロジェクトに追加します。

dotnet add {project_name} package Azure.AI.OpenAI --version 1.0.0-beta.17

OverridePolicy.csという C# ファイルをプロジェクトに追加し、次のコードを貼り付けます。

// OverridePolicy.cs
using Azure.Core.Pipeline;
using Azure.Core;

internal partial class OverrideRequestUriPolicy(Uri overrideUri)
    : HttpPipelineSynchronousPolicy
{
    private readonly Uri _overrideUri = overrideUri;

    public override void OnSendingRequest(HttpMessage message)
    {
        message.Request.Uri.Reset(_overrideUri);
    }
}

次のコードを Program.cs ファイルにコピーします

// Program.cs
using Azure.AI.OpenAI;

Uri localhostUri = new("http://localhost:5272/v1/chat/completions");

OpenAIClientOptions clientOptions = new();
clientOptions.AddPolicy(
    new OverrideRequestUriPolicy(localhostUri),
    Azure.Core.HttpPipelinePosition.BeforeTransport);
OpenAIClient client = new(openAIApiKey: "unused", clientOptions);

ChatCompletionsOptions options = new()
{
    DeploymentName = "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    Messages =
    {
        new ChatRequestSystemMessage("You are a helpful assistant. Be brief and succinct."),
        new ChatRequestUserMessage("What is the golden ratio?"),
    }
};

StreamingResponse<StreamingChatCompletionsUpdate> streamingChatResponse
    = await client.GetChatCompletionsStreamingAsync(options);

await foreach (StreamingChatCompletionsUpdate chatChunk in streamingChatResponse)
{
    Console.Write(chatChunk.ContentUpdate);
}

注

CPU バージョンの Phi3 モデルをダウンロードした場合は、モデルフィールドを Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx に更新することが必要です。

ONNX ランタイム

ONNX ランタイム生成 API は、ONNX ランタイムによる推論、ロジット処理、検索とサンプリング、KV キャッシュ管理など、ONNX モデルの生成 AI ループを提供します。上位レベル generate() のメソッドを呼び出したり、モデルの各イテレーションをループで実行したりして、一度に 1 つのトークンを生成したり、必要に応じてループ内の生成パラメーターを更新したりできます。

最長一致/ビーム検索と TopP、TopK サンプリングをサポートし、トークンシーケンスを生成し、繰り返しペナルティなどの組み込みのロジット処理を生成します。次のコードは、アプリケーションで ONNX ランタイムを活用する方法の例です。

ローカル REST API Web サーバーに示されている例を参照してください。 AI Toolkit REST Web サーバーは ONNX ランタイムを使用して構築されます。

Numpy をインストールします。

pip install numpy

次に、プラットフォームと GPU の可用性に応じて、ONNX ランタイム Python パッケージをプロジェクトにインストールします。

プラットフォーム	GPU の使用が可能	PyPI
ウィンドウズ	はい (AMD、NVIDIA、Intel、Qualcomm、その他対応)	`pip install --pre onnxruntime-genai-directml`
Linux	はい (Nvidia CUDA)	`pip install --pre onnxruntime-genai-cuda --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/onnxruntime-genai/pypi/simple/`
ウィンドウズ Linux	いいえ	`pip install --pre onnxruntime-genai`

ヒント

venv または conda を使用して、仮想環境に Python パッケージをインストールすることをお勧めします。

次に、次のコードをコピーし、app.py というPython ファイルに貼り付けます。

# app.py
import onnxruntime_genai as og
import argparse

def main(args):
    print("Loading model...")
    model = og.Model(f'{args.model}')
    print("Model loaded")
    tokenizer = og.Tokenizer(model)
    tokenizer_stream = tokenizer.create_stream()
    search_options = {
        'max_length': 2048
    }

    chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

    # Keep asking for input prompts in a loop
    while True:
        text = input("Input: ")
    
        # If there is a chat template, use it
        prompt = f'{chat_template.format(input=text)}'

        input_tokens = tokenizer.encode(prompt)

        params = og.GeneratorParams(model)
        params.set_search_options(**search_options)
        params.input_ids = input_tokens
        
        generator = og.Generator(model, params)
        print("\nOutput: ", end='', flush=True)
        while not generator.is_done():
            generator.compute_logits()
            generator.generate_next_token()
            new_token = generator.get_next_tokens()[0]
            print(tokenizer_stream.decode(new_token), end='', flush=True)
              
        print()
        print()

        # Delete the generator to free the captured graph for the next generator, if graph capture is enabled
        del generator


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('-m', '--model', type=str, required=True, help='Onnx model folder path (must contain config.json and model.onnx)')
    args = parser.parse_args()
    main(args)

次のコードを使用して、Python アプリを実行するには:

python app.py --model ~/.aitk/models/{path_to_folder_containing_onnx_file}

注

AI Toolkit のモデルダウンロードは、ユーザーディレクトリ内の .aitk という名前の隠しフォルダーにキャッシュとして保存されます。--model パラメーターに使用されるパスは、ONNX モデルファイルを含むフォルダーの場所に更新する必要があります。例: ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/。

プラットフォームと GPU の可用性に応じて、ONNX ランタイム NuGet パッケージをプロジェクトにインストールします。

プラットフォーム	GPU の使用が可能	ニューゲット
ウィンドウズ	はい (AMD、NVIDIA、Intel、Qualcomm、その他対応)	Microsoft.ML.OnnxRuntimeGenAI.DirectML
Linux	はい (Nvidia CUDA)	Microsoft.ML.OnnxRuntimeGenAI.Cuda
ウィンドウズ Linux	いいえ	Microsoft.ML.OnnxRuntimeGenAI

次のコードをコピーし、C# ファイルに貼り付けます。

using Microsoft.ML.OnnxRuntimeGenAI;

// update user_name and path placeholders
string modelPath = "C:\\Users\\{user_name}\\.aitk\\models\\{path}"; 
Console.Write("Loading model from " + modelPath + "...");
using Model model = new(modelPath);
Console.Write("Done\n");
using Tokenizer tokenizer = new(model);
using TokenizerStream tokenizerStream = tokenizer.CreateStream();

while (true)
{
    Console.Write("User:");
   
    string? input = Console.ReadLine();
    string prompt = "<|user|>\n" + input + "<|end|>\n<|assistant|>";

    var sequences = tokenizer.Encode(prompt);

    using GeneratorParams generatorParams = new GeneratorParams(model);
    generatorParams.SetSearchOption("max_length", 200);
    generatorParams.SetInputSequences(sequences);

    Console.Out.Write("\nAI:");
    using Generator generator = new(model, generatorParams);
    while (!generator.IsDone())
    { 
        generator.ComputeLogits();
        generator.GenerateNextToken();
        Console.Out.Write(tokenizerStream.Decode(generator.GetSequence(0)[^1]));
        Console.Out.Flush();
    }
    Console.WriteLine();
}

注

AI Toolkit のモデルダウンロードは、ユーザーディレクトリ内の .aitk という名前の隠しフォルダーにキャッシュとして保存されます。コード内の modelPath は、ONNX モデルファイルを含むフォルダーの場所に更新する必要があります。例: ~/.aitk/models/microsoft/Phi-3-mini-4k-instruct-onnx/directml/Phi-3-mini-4k-directml-int4-awq-block-128-onnx/。

次の手順

AI Toolkit for VS Code を使用してモデルを微調整する