Bagikan melalui


Mulai menggunakan AI Toolkit untuk Visual Studio Code

Toolkit AI untuk VS Code (AI Toolkit) adalah VS Code ekstensi yang memungkinkan Anda mengunduh, menguji, menyempurnakan, dan menyebarkan model AI dengan aplikasi Anda atau di cloud. Untuk informasi selengkapnya, lihat gambaran umum Toolkit AI.

Catatan

Dokumentasi dan tutorial tambahan untuk Toolkit AI VS Code tersedia dalam dokumentasi VS Code: AI Toolkit untuk Visual Studio Code. Anda akan menemukan panduan tentang Playground, bekerja dengan model AI, menyempurnakan model lokal dan berbasis cloud, dan banyak lagi.

Dalam artikel ini, Anda akan mempelajari cara:

  • Instal Toolkit AI untuk VS Code
  • Mengunduh model dari katalog
  • Jalankan model secara lokal menggunakan taman bermain
  • Mengintegrasikan model AI ke dalam aplikasi Anda menggunakan REST atau Runtime ONNX

Prasyarat

Saat menggunakan fitur AI, kami sarankan Anda meninjau: Mengembangkan Aplikasi dan Fitur AI Generatif yang Bertanggung Jawab di Windows.

Instal

Toolkit AI tersedia di Visual Studio Marketplace dan dapat diinstal seperti ekstensi lainnyaVS Code. Jika Anda tidak terbiasa menginstal VS Code ekstensi, ikuti langkah-langkah berikut:

  1. Di Bilah Aktivitas di VS Codepilih Ekstensi
  2. Di bilah Pencarian Ekstensi ketik "AI Toolkit"
  3. Pilih "Toolkit AI untuk kode Visual Studio"
  4. Pilih Instal

Setelah ekstensi diinstal, Anda akan melihat ikon Toolkit AI muncul di Bilah Aktivitas Anda.

Mengunduh model dari katalog

Bilah sisi utama Toolkit AI diatur ke dalam Model Saya, Katalog, Alat, dan Bantuan dan Umpan Balik. Fitur Playground, Bulk Run, Evaluation, dan Fine tuning tersedia di bagian Alat . Untuk mulai memilih Model dari bagian Katalog untuk membuka jendela Katalog Model :

Cuplikan layar jendela katalog model Toolkit AI di VS Code

Anda bisa menggunakan filter di bagian atas katalog untuk memfilter menurut Dihosting oleh, Penerbit, Tugas, dan Jenis model. Ada juga sakelar Fine-Tuning Support yang dapat Anda aktifkan untuk hanya menampilkan model yang dapat dioptimalkan.

Petunjuk / Saran

Filter Jenis model memungkinkan Anda hanya menampilkan model yang akan berjalan secara lokal pada CPU, GPU, atau NPU atau model yang hanya mendukung Akses jarak jauh. Untuk performa yang dioptimalkan pada perangkat yang memiliki setidaknya satu GPU, pilih jenis model Eksekusi lokal dengan GPU. Ini membantu menemukan model yang dioptimalkan untuk akselerator DirectML .

Untuk memeriksa apakah Anda memiliki GPU di perangkat Windows Anda, buka Task Manager lalu pilih tab Performa . Jika Anda memiliki GPU, GPU akan tercantum di bawah nama seperti "GPU 0" atau "GPU 1".

Catatan

Untuk Copilot+ PC dengan Neural Processing Unit (NPU), Anda dapat memilih model yang dioptimalkan untuk akselerator NPU. Model Deepseek R1 Distilled dioptimalkan untuk NPU dan tersedia untuk diunduh pada PC Copilot+ yang didukung Snapdragon yang menjalankan Windows 11. Untuk informasi selengkapnya, lihat Menjalankan model Distilled DeepSeek R1 secara lokal di PC Copilot+, yang didukung oleh Windows AI Foundry.

Model berikut saat ini tersedia untuk perangkat Windows dengan satu atau beberapa GPU:

  • Mistral 7B (DirectML - Kecil, Cepat)
  • Phi 3 Mini 4K (DirectML - Kecil, Cepat)
  • Phi 3 Mini 128K (DirectML - Kecil, Cepat)

Pilih model Phi 3 Mini 4K dan klik Unduh:

Catatan

Model Phi 3 Mini 4K berukuran sekitar 2GB-3GB. Tergantung pada kecepatan jaringan Anda, dibutuhkan beberapa menit untuk mengunduh.

Menjalankan model di taman bermain

Setelah model Anda diunduh, model akan muncul di bagian Model Saya di bawah Model lokal. Klik kanan model dan pilih Muat di Playground dari menu konteks:

Cuplikan layar item menu

Di antarmuka obrolan playground masukkan pesan berikut diikuti dengan tombol Enter :

Pilihan taman bermain

Anda akan melihat respons model yang dialirkan kembali kepada Anda:

Respons pembuatan

Peringatan

Jika Anda tidak memiliki GPU yang tersedia di perangkat Anda tetapi Anda memilih model Phi-3-mini-4k-directml-int4-awq-block-128-onnx, respons model akan sangat lambat. Anda harus mengunduh versi yang dioptimalkan CPU: Phi-3-mini-4k-cpu-int4-rtn-block-32-acc-level-4-onnx.

Dimungkinkan juga untuk mengubah:

  • Instruksi Konteks: Bantu model memahami gambaran yang lebih besar tentang permintaan Anda. Ini bisa berupa informasi latar belakang, contoh/demonstrasi tentang apa yang Anda inginkan atau menjelaskan tujuan tugas Anda.
  • Parameter inferensi:
    • Panjang respons maksimum: Jumlah maksimum token yang akan dikembalikan model.
    • Suhu: Suhu model adalah parameter yang mengontrol seberapa acak output model bahasa tersebut. Suhu yang lebih tinggi berarti model mengambil lebih banyak risiko, memberi Anda campuran kata-kata yang beragam. Di sisi lain, suhu yang lebih rendah membuat model memainkannya aman, menempel pada respons yang lebih fokus dan dapat diprediksi.
    • P Teratas: Juga dikenal sebagai pengambilan sampel nukleus, adalah pengaturan yang mengontrol berapa banyak kemungkinan kata atau frasa yang dipertimbangkan model bahasa saat memprediksi kata berikutnya
    • Penalti frekuensi: Parameter ini memengaruhi seberapa sering model mengulangi kata atau frasa dalam outputnya. Semakin tinggi nilai (lebih dekat ke 1,0) mendorong model untuk menghindari pengulangan kata atau frasa.
    • Penalti kehadiran: Parameter ini digunakan dalam model AI generatif untuk mendorong keragaman dan kekhususan dalam teks yang dihasilkan. Nilai yang lebih tinggi (lebih dekat ke 1,0) mendorong model untuk menyertakan lebih banyak token baru dan beragam. Nilai yang lebih rendah lebih mungkin bagi model untuk menghasilkan frasa umum atau klise.

Mengintegrasikan model AI ke dalam aplikasi Anda

Ada dua opsi untuk mengintegrasikan model ke dalam aplikasi Anda:

  1. AI Toolkit dilengkapi dengan server web API lokal REST yang menggunakan format penyelesaian obrolan OpenAI. Ini memungkinkan Anda menguji aplikasi Anda secara lokal - menggunakan titik http://127.0.0.1:5272/v1/chat/completions akhir - tanpa harus mengandalkan layanan model AI cloud. Gunakan opsi ini jika Anda ingin beralih ke titik akhir cloud dalam produksi. Anda dapat menggunakan pustaka klien OpenAI untuk menyambungkan ke server web.
  2. Menggunakan Runtime ONNX. Gunakan opsi ini jika Anda ingin mengirimkan model bersama aplikasi Anda dengan inferensi pada perangkat.

Server web API lokal REST

Server web API lokal REST memungkinkan Anda untuk membangun dan menguji aplikasi Anda secara lokal tanpa harus mengandalkan layanan model AI cloud. Anda dapat berinteraksi dengan server web menggunakan REST, atau dengan pustaka klien OpenAI:

Berikut adalah isi contoh untuk permintaan Anda REST :

{
    "model": "Phi-3-mini-4k-directml-int4-awq-block-128-onnx",
    "messages": [
        {
            "role": "user",
            "content": "what is the golden ratio?"
        }
    ],
    "temperature": 0.7,
    "top_p": 1,
    "top_k": 10,
    "max_tokens": 100,
    "stream": true
}'

Catatan

Anda mungkin perlu memperbarui bidang model ke nama model yang Anda unduh.

Anda dapat menguji REST titik akhir menggunakan alat API seperti Postman atau utilitas CURL:

curl -vX POST http://127.0.0.1:5272/v1/chat/completions -H 'Content-Type: application/json' -d @body.json

Runtime ONNX

ONNX Runtime Generate API menyediakan perulangan AI generatif untuk model ONNX, termasuk inferensi dengan ONNX Runtime, pemrosesan logit, pencarian dan pengambilan sampel, dan manajemen cache KV. Anda dapat memanggil metode tingkat generate() tinggi, atau menjalankan setiap iterasi model dalam perulangan, menghasilkan satu token pada satu waktu, dan secara opsional memperbarui parameter pembuatan di dalam perulangan.

Ini memiliki dukungan untuk pencarian serakah/balok dan TopP, pengambilan sampel TopK untuk menghasilkan urutan token dan pemrosesan logit bawaan seperti penalti pengulangan. Kode berikut adalah contoh bagaimana Anda dapat memanfaatkan runtime ONNX di aplikasi Anda.

Silakan lihat contoh yang ditampilkan di REST web API Lokal. Server web AI Toolkit REST dibangun menggunakan OnNX Runtime.

Langkah Selanjutnya