Copilot+ Panduan Pengembang PC

Copilot+ PC adalah kelas baru perangkat keras Windows 11 yang didukung oleh Neural Processing Unit (NPU) berkinerja tinggi — chip komputer khusus untuk proses intensif AI seperti terjemahan real-time dan pembuatan gambar —yang dapat melakukan lebih dari 40 triliun operasi per detik (TOPS). Copilot+ PC menyediakan masa pakai baterai sepanjang hari dan akses ke fitur dan model AI yang paling canggih. Pelajari lebih lanjut di Memperkenalkan Copilot+ PC - Blog Microsoft Resmi.

Panduan Pengembang + PC berikut Copilotmencakup:

  • Prasyarat Perangkat
  • Apa itu chip Snapdragon Elite X+ berbasis Arm?
  • Fitur AI unik yang didukung oleh Copilot+ PC dengan prosesor NPU
  • Cara mengakses NPU pada Copilot+ PC
  • Cara menggunakan ONNX Runtime untuk mengakses NPU secara terprogram pada Copilot+ PC
  • Cara mengukur performa model AI yang berjalan secara lokal di NPU perangkat

Prasyarat

Panduan ini khusus untuk Copilot+ PC.

Banyak fitur Windows AI baru memerlukan NPU dengan kemampuan untuk menjalankan 40+ TOPS, termasuk tetapi tidak terbatas pada:

  • Perangkat Qualcomm Snapdragon X Elite berbasis arm
  • Perangkat Intel Lunar Lake -- Segera hadir
  • Perangkat AMD STRIX (Ryzen AI 9) -- Segera hadir

Apa itu chip Snapdragon Elite X berbasis Arm?

Chip berbasis Snapdragon X Elite Arm baru yang dibangun oleh Qualcomm menekankan integrasi AI melalui Neural Processing Unit (NPU) terkemuka di industrinya. NPU ini mampu memproses data dalam jumlah besar secara paralel, melakukan triliunan operasi per detik, menggunakan energi pada tugas AI lebih efisien daripada CPU atau GPU yang mengakibatkan masa pakai baterai perangkat yang lebih lama. NPU berfungsi selaras dengan CPU dan GPU. Windows 11 menetapkan tugas pemrosesan ke tempat yang paling tepat untuk memberikan performa yang cepat dan efisien. NPU memungkinkan pengalaman cerdas AI pada perangkat dengan keamanan tingkat Perusahaan untuk perlindungan yang ditingkatkan dari chip ke cloud.

Fitur AI unik yang didukung oleh Copilot+ PC dengan NPU

Copilot+ PC menawarkan pengalaman AI unik yang dikirim dengan versi modern Windows 11. Fitur AI ini, yang dirancang untuk berjalan pada NPU perangkat, meliputi:

  • Efek Windows Studio: sekumpulan efek AI yang dipercepat NPU audio dan video dari Microsoft termasuk Filter Kreatif, Kabur Latar Belakang, Kontak Mata, Pembingkaian Otomatis, Fokus Suara. Pengembang juga dapat menambahkan pengalih ke aplikasi mereka untuk kontrol tingkat sistem. Daftar Efek Windows Studio penyempurnaan AI.

  • Pengenalan: API UserActivity yang didukung AI yang memungkinkan pengguna untuk mencari interaksi sebelumnya menggunakan bahasa alami dan mengambil di mana mereka tinggalkan. Tersedia untuk Copilot+ PC melalui Windows Insider Program (WIP). Pelajari lebih lanjut: Menelusuri kembali langkah-langkah Anda dengan Pengenalan

  • Phi Silica: Model Bahasa Kecil Phi (SLM) yang memungkinkan aplikasi Anda terhubung dengan model di perangkat untuk melakukan tugas pemrosesan bahasa alami (obrolan, matematika, kode, penalaran) menggunakan rilis SDK Aplikasi Windows yang akan datang.

  • Pengenalan Teks: API Pengenalan Karakter Optik (OCR) yang memungkinkan ekstraksi teks dari gambar dan dokumen. Bayangkan tugas seperti mengonversi PDF, dokumen kertas, atau gambar papan putih ruang kelas menjadi teks digital yang dapat diedit.

  • Kokreator dengan Paint fitur baru di Microsoft Paint yang mengubah gambar menjadi AI Art.

  • Resolusi Super: teknologi AI terkemuka di industri yang menggunakan NPU untuk membuat game berjalan lebih cepat dan terlihat lebih baik.

*Tidak semua fitur awalnya mungkin tersedia di semua Copilot+ PC.

Penting

Model AI yang dikirim dalam rilis terbaru Windows akan tersedia melalui API di Windows Copilot Runtime yang diumumkan pada Build 2024. API untuk fitur AI baru, seperti Phi Silica, didukung oleh model yang dioptimalkan untuk dijalankan (inferensi) pada NPU dan akan dikirim dalam rilis SDK Aplikasi Windows mendatang.

Cara mengakses NPU pada Copilot+ PC

Unit Pemrosesan Neural (NPU) adalah sumber daya perangkat keras baru. Seperti sumber daya perangkat keras lainnya pada PC, NPU membutuhkan perangkat lunak untuk diprogram secara khusus untuk memanfaatkan manfaat yang ditawarkannya. NPU dirancang khusus untuk menjalankan operasi matematika pembelajaran mendalam yang membentuk model AI.

Fitur Windows 11 Copilot+ AI yang disebutkan di atas telah dirancang khusus untuk memanfaatkan NPU. Pengguna akan mendapatkan peningkatan masa pakai baterai dan waktu eksekusi inferensi yang lebih cepat untuk model AI yang menargetkan NPU. Dukungan Windows 11 untuk NPU akan mencakup perangkat Qualcomm berbasis Arm, serta perangkat Intel dan AMD (segera hadir).

Untuk perangkat dengan NPU, Task Manager sekarang dapat digunakan untuk melihat penggunaan sumber daya NPU.

Cuplikan layar Windows Task Manager yang menampilkan performa NPU bersama CPU, GPU, Memori, Ethernet, dan Disk

Cara yang disarankan untuk inferensi (menjalankan tugas AI) pada NPU perangkat adalah dengan menggunakan ONNX Runtime. ONNX Runtime adalah tumpukan yang fleksibel dan berkinerja untuk diprogram terhadap NPU, serta GPU dan CPU, memungkinkan Anda membawa model AI Anda sendiri atau menggunakan model AI sumber terbuka yang ditemukan di web. Pelajari selengkapnya tentang menggunakan ONNX Runtime untuk mengakses NPU di bawah ini, atau pelajari selengkapnya tentang cara menggunakan model Pembelajaran Mesin di aplikasi Windows Anda.

Catatan

Bagaimana dengan menggunakan Runtime lain untuk PyTorch atau Tensorflow? Runtime lain untuk PyTorch, Tensorflow, dan jenis SDK yang disediakan vendor Silicon lainnya juga didukung di Windows. Saat ini Anda dapat menjalankan PyTorch, TensorFlow, dan jenis model lainnya dengan mengonversi ke format ONNX yang fleksibel, tetapi dukungan asli akan segera hadir.

Cara menggunakan ONNX Runtime untuk mengakses NPU secara terprogram pada Copilot+ PC

Microsoft menyediakan kerangka kerja inferensi dan pelatihan sumber terbuka lengkap yang disebut ONNX Runtime. ONNX Runtime adalah solusi Microsoft sumber terbuka yang direkomendasikan untuk menjalankan model AI pada NPU. Karena ONNX Runtime fleksibel dan mendukung banyak opsi berbeda untuk menjalankan model AI, pilihannya bisa membingungkan. Panduan ini akan membantu Anda memilih pilihan khusus untuk Windows Copilot+ PC.

  • Qualcomm Snapdragon X: Saat ini, pengembang harus menargetkan Qualcomm QNN Execution Provider (EP), yang menggunakan Qualcomm AI Engine Direct SDK (QNN). Paket bawaan dengan dukungan QNN tersedia untuk diunduh. Ini adalah tumpukan yang sama yang saat ini digunakan oleh Windows Copilot Runtime dan pengalaman pada Copilot+ perangkat PC Qualcomm. Dukungan DirectML dan WebNN untuk NPU Qualcomm Snapdragon X Elite diumumkan pada Build 2024 dan akan segera tersedia.
  • Perangkat NPU Intel dan AMD: Perangkat NPU tambahan akan tersedia nanti pada tahun 2024. DirectML adalah metode yang direkomendasikan untuk menargetkan perangkat ini.

Format model yang didukung

Model AI sering dilatih dan tersedia dalam format data yang lebih besar, seperti FP32. Namun, banyak perangkat NPU hanya mendukung matematika bilangan bulat dalam format bit yang lebih rendah, seperti INT8, untuk meningkatkan performa dan efisiensi daya. Oleh karena itu, model AI perlu dikonversi (atau "dikuantisasi") untuk berjalan pada NPU. Ada banyak model yang tersedia yang telah dikonversi menjadi format siap digunakan. Anda juga dapat membawa model Anda sendiri (BYOM) untuk mengonversi atau mengoptimalkan.

  • Qualcomm AI Hub (Compute): Qualcomm menyediakan model AI yang telah divalidasi untuk digunakan pada Copilot+ PC dengan Snapdragon X Elite dengan model yang tersedia yang secara khusus dioptimalkan untuk berjalan secara efisien pada NPU ini. Pelajari lebih lanjut: Mempercepat penyebaran model dengan Qualcomm AI Hub | Microsoft Build 2024.
  • ONNX Model Zoo: Repositori sumber terbuka ini menawarkan koleksi model canggih yang telah dilatih sebelumnya dalam format ONNX. Model ini direkomendasikan untuk digunakan dengan NPU di semua Copilot+ PC, termasuk perangkat Intel dan AMD (segera hadir).

Bagi mereka yang ingin membawa model Anda sendiri, sebaiknya gunakan alat pengoptimalan model yang sadar perangkat keras, Olive. Olive dapat membantu kompresi model, pengoptimalan, dan kompilasi untuk bekerja dengan ONNX Runtime sebagai solusi pengoptimalan performa NPU. Pelajari lebih lanjut: AI menjadi lebih mudah: Bagaimana toolchain ONNX Runtime dan Olive akan membantu Anda tanya jawab | Bangun 2023.

Cara mengukur performa model AI yang berjalan secara lokal di NPU perangkat

Untuk mengukur performa integrasi fitur AI di aplikasi Anda dan runtime model AI terkait:

  • Rekam jejak: Merekam aktivitas perangkat selama periode waktu tertentu dikenal sebagai pelacakan sistem. Pelacakan sistem menghasilkan file "jejak" yang dapat digunakan untuk menghasilkan laporan dan membantu Anda mengidentifikasi cara meningkatkan performa aplikasi Anda. Pelajari lebih lanjut: Ambil jejak sistem untuk menganalisis penggunaan memori.

  • Lihat penggunaan NPU: Periksa proses mana yang menggunakan NPU dan tumpukan panggilan yang mengirimkan pekerjaan.

  • Lihat pekerjaan dan tumpukan panggilan pada CPU: Periksa hasil model AI pengumpanan pra-kerja dan model AI pemrosesan pasca-kerja.

  • Muat dan Runtime: Periksa lamanya waktu untuk memuat model AI dan membuat sesi Runtime ONNX.

  • Parameter runtime: Periksa konfigurasi OnNX Runtime dan parameter Execution Provider (EP) yang memengaruhi performa dan pengoptimalan runtime model.

  • Waktu inferensi individual: Lacak waktu per inferensi dan sub-detail dari NPU.

  • Profiler: Operasi model AI profil untuk melihat berapa lama setiap operator berkontribusi pada total waktu inferensi.

  • Khusus NPU: Periksa sub-detail NPU seperti metrik sub-HW, bandwidth memori, dan banyak lagi.

Cuplikan layar yang memberikan kesan umum alat Penganalisis Kinerja Windows

Untuk melakukan pengukuran ini, kami merekomendasikan alat diagnostik dan pelacakan berikut:

  • Pengelola Tugas: Memungkinkan pengguna untuk melihat performa Sistem Operasi Windows yang diinstal pada perangkat mereka, termasuk Proses, Performa, Riwayat aplikasi, aplikasi Startup, Pengguna, Detail, dan Layanan. Data performa real time akan ditampilkan untuk CPU perangkat Anda, Memori, Disk Penyimpanan, Wi-Fi, GPU... dan sekarang NPU. Data mencakup persentase pemanfaatan, memori yang tersedia, memori bersama, versi driver, lokasi fisik, dan banyak lagi.
  • Windows Performance Recorder (WPR): WPR sekarang dikirim dengan profil Pemrosesan Neural untuk merekam aktivitas NPU. Ini mencatat interaksi Microsoft Compute Driver Model (MCDM) dengan NPU. Pengembang sekarang dapat melihat penggunaan NPU, proses mana yang menggunakan NPU, dan tumpukan panggilan yang mengirimkan pekerjaan.
  • Windows Penganalisis Kinerja (WPA): WPA membuat grafik dan tabel data peristiwa Event Tracing for Windows (ETW) yang direkam oleh Windows Performance Recorder (WPR), Xperf, atau penilaian yang dijalankan di Platform Penilaian. Ini menyediakan titik akses yang nyaman untuk menganalisis CPU, Disk, Jaringan, Peristiwa Runtime ONNX... dan tabel baru untuk analisis NPU, semuanya dalam satu garis waktu. WPA sekarang dapat melihat pekerjaan dan tumpukan panggilan pada CPU yang terkait dengan model AI pengumpanan pra-kerja dan hasil model AI pemrosesan pasca-kerja. Unduh Windows Penganalisis Kinerja dari Microsoft Store.
  • GPUView: GPUView adalah alat pengembangan yang membaca peristiwa video dan kernel yang dicatat dari file log jejak peristiwa (.etl) dan menyajikan data secara grafis kepada pengguna. Alat ini sekarang mencakup operasi GPU dan NPU, serta dukungan untuk melihat peristiwa DirectX untuk perangkat MCDM seperti NPU.
  • Peristiwa Runtime ONNX di Windows Penganalisis Kinerja: Dimulai dengan ONNXRuntime 1.17 (dan ditingkatkan dalam 1.18.1) kasus penggunaan berikut tersedia dengan peristiwa yang dipancarkan dalam runtime:
    • Lihat berapa lama waktu yang diperlukan untuk memuat model AI dan membuat sesi ONNX Runtime.
    • Lihat konfigurasi Runtime ONNX dan parameter Penyedia Eksekusi (EP) yang memengaruhi performa dan pengoptimalan runtime model.
    • Lacak per waktu inferensi dan sub-detail dari NPU (QNN).
    • Operasi Model AI Profil untuk melihat berapa lama waktu yang dibutuhkan setiap operator untuk berkontribusi pada total waktu inferensi.
    • Pelajari selengkapnya tentang Pembuatan Profil Penyedia Eksekusi Runtime ONNX (EP).

Catatan

WPR UI (antarmuka pengguna yang tersedia untuk mendukung WPR berbasis baris perintah yang disertakan dalam Windows), WPA, dan GPUView semuanya merupakan bagian dari Windows Performance Toolkit (WPT), versi Mei 2024+. Untuk menggunakan WPT, Anda harus: Unduh Windows ADK Toolkit.

Untuk mulai cepat melihat peristiwa ONNX Runtime dengan Windows Penganalisis Kinerja (WPA), ikuti langkah-langkah berikut:

  1. Unduh ort.wprp dan etw_provider.wprp.

  2. Buka baris perintah Anda dan masukkan:

    wpr -start ort.wprp -start etw_provider.wprp -start NeuralProcessing -start CPU
    echo Repro the issue allowing ONNX to run 
    wpr -stop onnx_NPU.etl -compress
    
  3. Gabungkan profil Windows Performance Recorder (WPR) dengan Profil Rekaman Bawaan lainnya seperti CPU, Disk, dll.

  4. Unduh Windows Penganalisis Kinerja (WPA) dari Microsoft Store.

  5. onnx_NPU.etl Buka file di WPA. Klik Ganda untuk membuka grafik ini:

    • "Pemrosesan Neural -> Pemanfaatan NPU
    • Peristiwa Umum untuk peristiwa ONNX

Alat pengukuran performa tambahan yang perlu dipertimbangkan untuk digunakan dengan alat Microsoft Windows yang tercantum di atas, meliputi:

  • Qualcomm Snapdragon Profiler (qprof): GUI dan alat pembuatan profil performa seluruh sistem yang dirancang untuk memvisualisasikan performa sistem, serta mengidentifikasi peluang peningkatan pengoptimalan dan penskalaan aplikasi di seluruh CPU SoC Qualcomm, GPU, DSP, dan blok IP lainnya. Snapdragon Profiler memungkinkan melihat sub-detail NPU, seperti metrik sub-HW, bandwidth memori, dan banyak lagi.

Sumber Daya Penambahan