Sdílet prostřednictvím


Začněte s nástrojem AI pro Visual Studio Code

AI Toolkit for VS Code (AI Toolkit) je rozšíření VS Code, které umožňuje stahovat, testovat, doladit a nasazovat modely AI s vašimi aplikacemi nebo v cloudu. Další informace najdete v přehledu sady AI Toolkit.

Poznámka

Další dokumentace a tutoriály pro nástroj AI Toolkit pro VS Code jsou k dispozici v dokumentaci VS Code: AI Toolkit pro Visual Studio Code. Najdete zde pokyny pro Dětské hřiště, práci s modely AI, vyladění místních a cloudových modelů a další.

V tomto článku se dozvíte, jak:

  • Nainstalujte sadu AI Toolkit pro VS Code
  • Stažení modelu z katalogu
  • Místní spuštění modelu pomocí dětského hřiště
  • Integrace modelu AI do aplikace pomocí REST nebo modulu RUNTIME ONNX

Požadavky

Při používání funkcí umělé inteligence doporučujeme zkontrolovat: Vývoj zodpovědného generování aplikací a funkcí umělé inteligence ve Windows.

Nainstalovat

Sada AI Toolkit je k dispozici na webu Visual Studio Marketplace a dá se nainstalovat stejně jako jakékoli jiné VS Code rozšíření. Pokud neznáte instalaci rozšíření VS Code, postupujte takto:

  1. Na panelu aktivit vyberte VS CodeRozšíření.
  2. Na panelu Hledání rozšíření zadejte "AI Toolkit"
  3. Vyberte „AI Toolkit for Visual Studio Code“.
  4. Vyberte Nainstalovat.

Po instalaci rozšíření se na panelu aktivit zobrazí ikona AI Toolkit.

Stažení modelu z katalogu

Primární boční panel sady AI Toolkit je uspořádaný do části Moje modely, Katalog, Nástroje a Nápověda a Zpětná vazba. Funkce dětského hřiště, hromadného spuštění, vyhodnocení a jemného ladění jsou k dispozici v části Nástroje . Pokud chcete začít vybírat modely z oddílu Katalog, otevřete okno Katalog modelů :

Snímek obrazovky s oknem katalogu modelů AI Toolkit v okně VS Code

Filtry v horní části katalogu můžete použít k filtrování podle typu hostitele , vydavatele , úkolů a typu modelu . K dispozici je také přepínač Fine-Tuning Podpora, který můžete zapnout, aby se zobrazovaly jenom modely, které je možné doladit.

Spropitné

Filtr typ modelu umožňuje zobrazit jenom modely, které se budou spouštět místně na procesoru, GPU nebo NPU nebo modelech, které podporují pouze vzdálený přístup. Pokud chcete optimalizovat výkon na zařízeních s alespoň jedním GPU, vyberte typ modelu místního spuštění s GPU. To pomáhá najít model optimalizovaný pro akcelerátor DirectML .

Pokud chcete zkontrolovat, jestli máte na zařízení s Windows GPU, otevřete Správce úloh a pak vyberte kartu Výkon. Pokud máte GPU, budou uvedené pod názvy, jako je GPU 0 nebo GPU 1.

Poznámka

U počítačů Copilot+ s neurálním procesorem (NPU) můžete vybrat modely optimalizované pro akcelerátor NPU. Model Deepseek R1 Distilled je optimalizovaný pro NPU a je k dispozici ke stažení na počítačích s Windows 11 poháněných procesorem Snapdragon s technologií Copilot+. Další informace najdete v tématu Spuštění modelů DeepSeek R1 místně na počítačích Copilot+ s technologií Windows AI Foundry.

Pro zařízení s Windows s jedním nebo více grafickými procesory jsou aktuálně k dispozici následující modely:

  • Mistral 7B (DirectML - Malý, Rychlý)
  • Phi 3 Mini 4K (DirectML – Malý, Rychlý)
  • Phi 3 Mini 128K (DirectML - Malý, Rychlý)

Vyberte model Phi 3 Mini 4K a klikněte na Tlačítko Stáhnout:

Poznámka

Model Phi 3 Mini 4K je velikost přibližně 2 GB-3 GB. V závislosti na rychlosti vaší sítě může stažení trvat několik minut.

Spusťte model v testovacím prostředí

Jakmile se váš model stáhne, zobrazí se v části Moje modely v části Místní modely. Klikněte pravým tlačítkem myši na model a v místní nabídce vyberte Načíst v Playgroundu :

Snímek obrazovky s položkou místní nabídky Načíst v dětském prostředí

V rozhraní chatu dětského hřiště zadejte následující zprávu následovanou klávesou Enter :

Výběr dětského hřiště

Měla by se zobrazit odpověď modelu streamovaná zpět vám:

Odezva generace

Varování

Pokud na svém zařízení nemáte k dispozici GPU, ale vybrali jste model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, bude odezva modelu velmi pomalá. Místo toho byste měli stáhnout verzi optimalizovanou pro procesor: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Je také možné změnit:

  • Kontextové pokyny: Pomozte modelu porozumět širšímu obrázku vaší žádosti. Může se jednat o základní informace, příklady nebo ukázky toho, co chcete, nebo vysvětlit účel úkolu.
  • Parametry odvození:
    • Maximální délka odpovědi: Maximální počet tokenů, které model vrátí.
    • Teplota: Teplota modelu je parametr, který řídí, jak náhodný je výstup jazykového modelu. Vyšší teplota znamená, že model riskuje více rizik a poskytuje vám různorodou kombinaci slov. Na druhou stranu nižší teplota způsobí, že model bude jednat opatrně a bude se držet zaměřených a předvídatelných odpovědí.
    • Top P: Také známé jako vzorkování jádra, je nastavení, které řídí, kolik možných slov nebo frází jazykový model zvažuje při předpovídání dalšího slova.
    • Trest frekvence: Tento parametr ovlivňuje, jak často model opakuje slova nebo fráze ve výstupu. Čím vyšší je hodnota (blíže 1,0), podporuje model, aby se zabránilo opakování slov nebo frází.
    • Trest přítomnosti: Tento parametr se používá v generovaných modelech AI k podpoře rozmanitosti a specifikity ve generovaném textu. Vyšší hodnota (blíže k hodnotě 1,0) podporuje model, aby zahrnoval více nových a různorodých tokenů. Nižší hodnota znamená vyšší pravděpodobnost, že model vygeneruje běžné nebo klišé fráze.

Integrace modelu AI do aplikace

Model můžete integrovat do aplikace dvěma způsoby:

  1. Sada AI Toolkit se dodává s místním REST webovým serverem rozhraní API , který používá formát dokončování chatu OpenAI. To vám umožní otestovat aplikaci místně – pomocí koncového bodu http://127.0.0.1:5272/v1/chat/completions – bez nutnosti spoléhat se na cloudovou službu modelu AI. Tuto možnost použijte, pokud chcete přejít na koncový bod cloudu v produkčním prostředí. Klientské knihovny OpenAI můžete použít k připojení k webovému serveru.
  2. Pomocí ONNX Runtime. Tuto možnost použijte, pokud chcete model odeslat s aplikací s odvozováním na zařízení.

Místní webový server rozhraní API REST

Místní webový server rozhraní API REST umožňuje sestavit a otestovat aplikaci místně, aniž byste museli spoléhat na cloudovou službu modelu AI. S webovým serverem můžete pracovat pomocí RESTnebo s klientskou knihovnou OpenAI:

Tady je příklad textu požadavku REST:

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Poznámka

Možná budete muset aktualizovat pole modelu na název modelu, který jste stáhli.

Koncový bod můžete otestovat REST pomocí nástroje rozhraní API, jako je Postman nebo nástroj CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

ONNX Runtime

Rozhraní API pro generování modulu runtime ONNX poskytuje generativní smyčku AI pro modely ONNX, včetně provádění inferencí pomocí ONNX Runtime, zpracování logitů, vyhledávacích a vzorkovacích metod a správy mezipaměti KV. Můžete volat metodu vysoké úrovně generate() nebo spustit každou iteraci modelu ve smyčce, vygenerovat jeden token najednou a volitelně aktualizovat parametry generování uvnitř smyčky.

Podporuje greedy/beam vyhledávání a TopP, TopK vzorkování za účelem generování sekvencí tokenů a integrovaného zpracování logitů, jako jsou penalizace opakování. Následující kód je příkladem toho, jak můžete ve svých aplikacích využít modul runtime ONNX.

Projděte si příklad uvedený na webovém serveru místního REST rozhraní API. Webový server REST AI Toolkit se sestavuje pomocí modulu runtime ONNX.

Další krok