Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
AI Toolkit for VS Code (AI Toolkit) je rozšíření VS Code, které umožňuje stahovat, testovat, doladit a nasazovat modely AI s vašimi aplikacemi nebo v cloudu. Další informace najdete v přehledu sady AI Toolkit.
Poznámka
Další dokumentace a tutoriály pro nástroj AI Toolkit pro VS Code jsou k dispozici v dokumentaci VS Code: AI Toolkit pro Visual Studio Code. Najdete zde pokyny pro Dětské hřiště, práci s modely AI, vyladění místních a cloudových modelů a další.
V tomto článku se dozvíte, jak:
- Nainstalujte sadu AI Toolkit pro VS Code
- Stažení modelu z katalogu
- Místní spuštění modelu pomocí dětského hřiště
- Integrace modelu AI do aplikace pomocí REST nebo modulu RUNTIME ONNX
Požadavky
- VS Code musí být nainstalována. Další informace naleznete v tématu Stažení VS Code a Začínáme s VS Code.
Při používání funkcí umělé inteligence doporučujeme zkontrolovat: Vývoj zodpovědného generování aplikací a funkcí umělé inteligence ve Windows.
Nainstalovat
Sada AI Toolkit je k dispozici na webu Visual Studio Marketplace a dá se nainstalovat stejně jako jakékoli jiné VS Code rozšíření. Pokud neznáte instalaci rozšíření VS Code, postupujte takto:
- Na panelu aktivit vyberte VS CodeRozšíření.
- Na panelu Hledání rozšíření zadejte "AI Toolkit"
- Vyberte „AI Toolkit for Visual Studio Code“.
- Vyberte Nainstalovat.
Po instalaci rozšíření se na panelu aktivit zobrazí ikona AI Toolkit.
Stažení modelu z katalogu
Primární boční panel sady AI Toolkit je uspořádaný do části Moje modely, Katalog, Nástroje a Nápověda a Zpětná vazba. Funkce dětského hřiště, hromadného spuštění, vyhodnocení a jemného ladění jsou k dispozici v části Nástroje . Pokud chcete začít vybírat modely z oddílu Katalog, otevřete okno Katalog modelů :
Filtry v horní části katalogu můžete použít k filtrování podle typu hostitele , vydavatele , úkolů a typu modelu . K dispozici je také přepínač Fine-Tuning Podpora, který můžete zapnout, aby se zobrazovaly jenom modely, které je možné doladit.
Spropitné
Filtr typ modelu umožňuje zobrazit jenom modely, které se budou spouštět místně na procesoru, GPU nebo NPU nebo modelech, které podporují pouze vzdálený přístup. Pokud chcete optimalizovat výkon na zařízeních s alespoň jedním GPU, vyberte typ modelu místního spuštění s GPU. To pomáhá najít model optimalizovaný pro akcelerátor DirectML .
Pokud chcete zkontrolovat, jestli máte na zařízení s Windows GPU, otevřete Správce úloh
Poznámka
U počítačů Copilot+ s neurálním procesorem (NPU) můžete vybrat modely optimalizované pro akcelerátor NPU. Model Deepseek R1 Distilled je optimalizovaný pro NPU a je k dispozici ke stažení na počítačích s Windows 11 poháněných procesorem Snapdragon s technologií Copilot+. Další informace najdete v tématu Spuštění modelů DeepSeek R1 místně na počítačích Copilot+ s technologií Windows AI Foundry.
Pro zařízení s Windows s jedním nebo více grafickými procesory jsou aktuálně k dispozici následující modely:
- Mistral 7B (DirectML - Malý, Rychlý)
- Phi 3 Mini 4K (DirectML – Malý, Rychlý)
- Phi 3 Mini 128K (DirectML - Malý, Rychlý)
Vyberte model Phi 3 Mini 4K a klikněte na Tlačítko Stáhnout:
Poznámka
Model Phi 3 Mini 4K je velikost přibližně 2 GB-3 GB. V závislosti na rychlosti vaší sítě může stažení trvat několik minut.
Spusťte model v testovacím prostředí
Jakmile se váš model stáhne, zobrazí se v části Moje modely v části Místní modely. Klikněte pravým tlačítkem myši na model a v místní nabídce vyberte Načíst v Playgroundu :
V rozhraní chatu dětského hřiště zadejte následující zprávu následovanou klávesou Enter :
Měla by se zobrazit odpověď modelu streamovaná zpět vám:
Odezva generace
Varování
Pokud na svém zařízení nemáte k dispozici GPU, ale vybrali jste model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, bude odezva modelu velmi pomalá. Místo toho byste měli stáhnout verzi optimalizovanou pro procesor: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.
Je také možné změnit:
- Kontextové pokyny: Pomozte modelu porozumět širšímu obrázku vaší žádosti. Může se jednat o základní informace, příklady nebo ukázky toho, co chcete, nebo vysvětlit účel úkolu.
-
Parametry odvození:
- Maximální délka odpovědi: Maximální počet tokenů, které model vrátí.
- Teplota: Teplota modelu je parametr, který řídí, jak náhodný je výstup jazykového modelu. Vyšší teplota znamená, že model riskuje více rizik a poskytuje vám různorodou kombinaci slov. Na druhou stranu nižší teplota způsobí, že model bude jednat opatrně a bude se držet zaměřených a předvídatelných odpovědí.
- Top P: Také známé jako vzorkování jádra, je nastavení, které řídí, kolik možných slov nebo frází jazykový model zvažuje při předpovídání dalšího slova.
- Trest frekvence: Tento parametr ovlivňuje, jak často model opakuje slova nebo fráze ve výstupu. Čím vyšší je hodnota (blíže 1,0), podporuje model, aby se zabránilo opakování slov nebo frází.
- Trest přítomnosti: Tento parametr se používá v generovaných modelech AI k podpoře rozmanitosti a specifikity ve generovaném textu. Vyšší hodnota (blíže k hodnotě 1,0) podporuje model, aby zahrnoval více nových a různorodých tokenů. Nižší hodnota znamená vyšší pravděpodobnost, že model vygeneruje běžné nebo klišé fráze.
Integrace modelu AI do aplikace
Model můžete integrovat do aplikace dvěma způsoby:
- Sada AI Toolkit se dodává s místním REST webovým serverem rozhraní API , který používá formát dokončování chatu OpenAI. To vám umožní otestovat aplikaci místně – pomocí koncového bodu
http://127.0.0.1:5272/v1/chat/completions
– bez nutnosti spoléhat se na cloudovou službu modelu AI. Tuto možnost použijte, pokud chcete přejít na koncový bod cloudu v produkčním prostředí. Klientské knihovny OpenAI můžete použít k připojení k webovému serveru. - Pomocí ONNX Runtime. Tuto možnost použijte, pokud chcete model odeslat s aplikací s odvozováním na zařízení.
Místní webový server rozhraní API REST
Místní webový server rozhraní API REST umožňuje sestavit a otestovat aplikaci místně, aniž byste museli spoléhat na cloudovou službu modelu AI. S webovým serverem můžete pracovat pomocí RESTnebo s klientskou knihovnou OpenAI:
Tady je příklad textu požadavku REST:
{
"model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
"messages": [
{
"role": "user",
"content": "what is the golden ratio?"
}
],
"temperature": 0.7,
"top_p": 1,
"top_k": 10,
"max_tokens": 100,
"stream": true
}'
Poznámka
Možná budete muset aktualizovat pole modelu na název modelu, který jste stáhli.
Koncový bod můžete otestovat REST pomocí nástroje rozhraní API, jako je Postman nebo nástroj CURL:
curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json
ONNX Runtime
Rozhraní API pro generování modulu runtime ONNX poskytuje generativní smyčku AI pro modely ONNX, včetně provádění inferencí pomocí ONNX Runtime, zpracování logitů, vyhledávacích a vzorkovacích metod a správy mezipaměti KV. Můžete volat metodu vysoké úrovně generate()
nebo spustit každou iteraci modelu ve smyčce, vygenerovat jeden token najednou a volitelně aktualizovat parametry generování uvnitř smyčky.
Podporuje greedy/beam vyhledávání a TopP, TopK vzorkování za účelem generování sekvencí tokenů a integrovaného zpracování logitů, jako jsou penalizace opakování. Následující kód je příkladem toho, jak můžete ve svých aplikacích využít modul runtime ONNX.
Projděte si příklad uvedený na webovém serveru místního REST rozhraní API. Webový server REST AI Toolkit se sestavuje pomocí modulu runtime ONNX.