Udostępnij za pośrednictwem


Rozpocznij korzystanie z AI Toolkit for Visual Studio Code

Zestaw narzędzi AI Toolkit for VS Code (AI Toolkit) to rozszerzenie VS Code, które umożliwia pobieranie, testowanie, dostosowywanie i wdrażanie modeli sztucznej inteligencji za pomocą aplikacji lub w chmurze. Aby uzyskać więcej informacji, zobacz omówienie zestawu narzędzi AI Toolkit.

Notatka

Dodatkowa dokumentacja i samouczki dotyczące zestawu narzędzi AI Toolkit for VS Code są dostępne w VS Code dokumentacji: AI Toolkit for Visual Studio Code. Znajdziesz wskazówki dotyczące placu zabaw, pracy z modelami sztucznej inteligencji, dostrajaniem modeli lokalnych i opartych na chmurze i nie tylko.

Z tego artykułu dowiesz się, jak wykonywać następujące działania:

  • Zainstaluj zestaw narzędzi AI Toolkit for VS Code
  • Pobieranie modelu z wykazu
  • Uruchamianie modelu lokalnie przy użyciu placu zabaw
  • Integrowanie modelu sztucznej inteligencji z aplikacją przy użyciu REST lub środowiska uruchomieniowego ONNX

Warunki wstępne

Podczas korzystania z funkcji sztucznej inteligencji zalecamy zapoznanie się z materiałem Tworzenie odpowiedzialnych aplikacji i funkcji generatywnej sztucznej inteligencji w systemie Windows.

Instalować

Zestaw narzędzi AI Toolkit jest dostępny w witrynie Visual Studio Marketplace i można go zainstalować jak każde inne VS Code rozszerzenie. Jeśli nie znasz instalowania rozszerzeń VS Code, wykonaj następujące kroki:

  1. Na pasku działań w VS Code wybierz pozycję Rozszerzenia
  2. Na pasku wyszukiwania rozszerzeń wpisz "AI Toolkit"
  3. Wybierz "AI Toolkit for Visual Studio Code"
  4. Wybierz pozycję Zainstaluj

Po zainstalowaniu rozszerzenia zobaczysz ikonę AI Toolkit na pasku działań.

Pobieranie modelu z wykazu

Podstawowy pasek boczny zestawu narzędzi AI Toolkit jest zorganizowany w elementy Moje modele, wykaz, narzędzia i Pomoc i opinie. Funkcje Placu zabaw, Uruchamianie zbiorcze, Oceny i Dostrajanie są dostępne w sekcji Narzędzia. Aby rozpocząć wybieranie modeli w sekcji Wykaz , aby otworzyć okno Katalog modeli :

Zrzut ekranu przedstawiający okno wykazu modeli zestawu narzędzi AI Toolkit w programie VS Code

Filtry w górnej części katalogu umożliwiają filtrowanie według Organizowane przez, Wydawca, Zadania i Typ modelu. Istnieje również przełącznik Fine-Tuning Support, który można włączyć, aby pokazywać tylko modele, które można dostroić.

Napiwek

Filtr typu modelu pozwala wyświetlać tylko modele, które będą uruchamiane lokalnie na CPU, GPU lub NPU, lub modele obsługujące wyłącznie dostęp zdalny . Aby uzyskać zoptymalizowaną wydajność na urządzeniach z co najmniej jednym procesorem GPU, wybierz typ modelu Lokalne uruchomienie w/GPU. Pomaga to znaleźć model zoptymalizowany pod kątem akceleratora DirectML .

Aby sprawdzić, czy masz procesor GPU na urządzeniu z systemem Windows, otwórz Menedżer zadań, a następnie wybierz kartę wydajności . Jeśli masz procesory GPU, będą one wyświetlane pod nazwami takimi jak "GPU 0" lub "GPU 1".

Notatka

W przypadku komputerów Copilot+ z jednostką przetwarzania neuronowego (NPU) można wybrać modele zoptymalizowane pod kątem akceleratora NPU. Model Deepseek R1 Distilled jest zoptymalizowany pod kątem NPU i dostępny do pobrania na komputerach Copilot+ PC z systemem Windows 11. Aby uzyskać więcej informacji, zobacz Running Distilled DeepSeek R1 models locally on Copilot+ PCs, powered by Windows AI Foundry ( Uruchamianie modeli DeepSeek R1 lokalnie na komputerach Copilot+ opartych na narzędziu Windows AI Foundry).

Następujące modele są obecnie dostępne dla urządzeń z systemem Windows z co najmniej jednym procesorem GPU:

  • Mistral 7B (DirectML — mały, szybki)
  • Phi 3 Mini 4K (DirectML — mały, szybki)
  • Phi 3 Mini 128K (DirectML — mały, szybki)

Wybierz model Phi 3 Mini 4K i kliknij przycisk Pobierz:

Notatka

Model Phi 3 Mini 4K ma rozmiar około 2 GB–3 GB. W zależności od szybkości sieci pobieranie może potrwać kilka minut.

Uruchamianie modelu na placu zabaw

Po pobraniu modelu zostanie on wyświetlony w sekcji Moje modele w obszarze Modele lokalne. Kliknij prawym przyciskiem myszy model i wybierz polecenie Załaduj na placu zabaw z menu kontekstowego:

Zrzut ekranu przedstawiający element menu kontekstowego Załaduj w Playground

W interfejsie czatu placu zabaw wprowadź następujący komunikat, a następnie Enter :

Wybór placu zabaw

Powinna zostać wyświetlona odpowiedź modelu przesyłana strumieniowo z powrotem do Ciebie:

Odpowiedź generowania

Ostrzeżenie

Jeśli na urządzeniu nie masz dostępnego procesora GPU, ale wybrano model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, odpowiedź modelu będzie bardzo niska. Zamiast tego należy pobrać wersję zoptymalizowaną dla CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Istnieje również możliwość zmiany:

  • Instrukcje kontekstowe: Pomóż modelowi zrozumieć większy obraz twojego żądania. Mogą to być podstawowe informacje, przykłady/pokazy tego, co chcesz lub wyjaśnić cel zadania.
  • Parametry wnioskowania:
    • Maksymalna długość odpowiedzi: maksymalna liczba tokenów zwracanych przez model.
    • Temperatura: Temperatura modelu to parametr temperaturowy, który kontroluje, jak bardzo zróżnicowane są dane wyjściowe modelu językowego. Wyższa temperatura oznacza, że model podejmuje większe ryzyko, oferując ci zróżnicowaną mieszankę słów. Z kolei niższa temperatura sprawia, że model gra bezpiecznie, trzyma się bardziej skoncentrowanych i przewidywalnych odpowiedzi.
    • Najważniejsze P: Znane również jako próbkowanie jądra to ustawienie, które kontroluje liczbę możliwych wyrazów lub fraz, które model językowy rozważa podczas przewidywania następnego słowa
    • Kara częstotliwości: ten parametr wpływa na częstotliwość powtarzania wyrazów lub fraz w danych wyjściowych modelu. Im wyższa wartość (bliżej 1,0) zachęca model do unikania powtarzania wyrazów lub fraz.
    • Kara za obecność: ten parametr jest używany w modelach generowania sztucznej inteligencji, aby zachęcić do różnorodności i specyfiki wygenerowanego tekstu. Wyższa wartość (bliżej 1,0) zachęca model do uwzględnienia bardziej nowatorskich i zróżnicowanych tokenów. Niższa wartość jest bardziej prawdopodobna, aby model wygenerował typowe lub banalne frazy.

Integrowanie modelu sztucznej inteligencji z aplikacją

Istnieją dwie opcje integracji modelu z aplikacją:

  1. Zestaw narzędzi AI Toolkit jest dostarczany z REST, który używa formatu uzupełniania czatu OpenAI. Dzięki temu można testować aplikację lokalnie — przy użyciu punktu końcowego http://127.0.0.1:5272/v1/chat/completions — bez konieczności polegania na usłudze modelu sztucznej inteligencji w chmurze. Użyj tej opcji, jeśli zamierzasz przełączyć się do punktu końcowego chmury w środowisku produkcyjnym. Aby nawiązać połączenie z serwerem internetowym, możesz użyć bibliotek klienckich openAI.
  2. Przy użyciu środowiska uruchomieniowego ONNX. Użyj tej opcji, jeśli zamierzasz dostarczyć model wraz z aplikacją, umożliwiając wnioskowanie na urządzeniu.

Lokalny serwer internetowy interfejsu API REST

Lokalny serwer internetowy interfejsu API REST umożliwia tworzenie i testowanie aplikacji lokalnie bez konieczności polegania na usłudze modelu sztucznej inteligencji w chmurze. Możesz wchodzić w interakcje z serwerem sieci Web przy użyciu RESTlub z biblioteką klienta OpenAI:

Oto przykładowa treść żądania REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Notatka

Może być konieczne zaktualizowanie pola modelu do nazwy pobranego modelu.

Punkt końcowy można przetestować przy użyciu narzędzia API REST, takiego jak Postman lub narzędziem CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Środowisko uruchomieniowe ONNX

Interfejs API generowania środowiska uruchomieniowego ONNX zapewnia generatywną pętlę AI dla modeli ONNX, w tym wnioskowanie przy użyciu środowiska uruchomieniowego ONNX, przetwarzanie logitów, przeszukiwanie i próbkowanie oraz zarządzanie pamięcią podręczną KV. Można wywołać metodę generate() wysokiego poziomu lub uruchomić każdą iterację modelu w pętli, generując jeden token jednocześnie i opcjonalnie aktualizując parametry generowania wewnątrz pętli.

Ma obsługę wyszukiwania chciwości/belki i TopP, próbkowania TopK w celu generowania sekwencji tokenów i wbudowanego przetwarzania logits, takich jak kary powtórzeń. Poniższy kod to przykład wykorzystania środowiska uruchomieniowego ONNX w aplikacjach.

Zapoznaj się z przykładem pokazanym na REST lokalnym serwerze internetowym interfejsu API. Serwer internetowy AI Toolkit REST jest zbudowany przy użyciu ONNX Runtime.

Następny krok