Bagikan melalui


Mengembangkan aplikasi AI untuk Copilot+ PC

Copilot+ PC adalah kelas baru perangkat keras Windows 11 yang didukung oleh Neural Processing Unit (NPU) berkinerja tinggi — chip komputer khusus untuk proses intensif AI seperti terjemahan real-time dan pembuatan gambar —yang dapat melakukan lebih dari 40 triliun operasi per detik (TOPS). Copilot+ PC menyediakan masa pakai baterai sepanjang hari dan akses ke fitur dan model AI yang paling canggih.

Pelajari lebih lanjut:

Panduan Pengembang + PC berikut Copilotmencakup:

  • Prasyarat Perangkat
  • Apa itu chip Snapdragon Elite X+ berbasis Arm?
  • Fitur AI unik yang didukung oleh Copilot+ PC dengan prosesor NPU
  • Cara mengakses NPU pada Copilot+ PC
  • Cara menggunakan ONNX Runtime untuk mengakses NPU secara terprogram pada Copilot+ PC
  • Cara mengukur performa model AI yang berjalan secara lokal di NPU perangkat

Prasyarat

Panduan ini khusus untuk Copilot+ PC.

Banyak fitur Windows AI baru memerlukan NPU dengan kemampuan untuk berjalan di 40+ TOPS, termasuk tetapi tidak terbatas pada:

  • Microsoft Surface Laptop Copilot+ PC
  • Microsoft Surface Pro Copilot + PC
  • HP OmniBook X 14
  • Dell Latitude 7455, XPS 13, dan Inspiron 14
  • Acer Swift 14 AI
  • Lenovo Yoga Slim 7x dan ThinkPad T14s
  • Samsung Galaxy Book4 Edge
  • ASUS Vivobook S 15 dan ProArt PZ13
  • Copilot+ PC dengansilikon AMD dan Intel baru, termasuk seri AMD Ryzen AI 300 dan seri Intel Core Ultra 200V.

Surface Copilot+ PC untuk Bisnis:

Apa itu chip Snapdragon Elite X berbasis Arm?

Chip berbasis Snapdragon X Elite Arm baru yang dibangun oleh Qualcomm menekankan integrasi AI melalui Neural Processing Unit (NPU) terkemuka di industrinya. NPU ini mampu memproses data dalam jumlah besar secara paralel, melakukan triliunan operasi per detik, menggunakan energi pada tugas AI lebih efisien daripada CPU atau GPU yang mengakibatkan masa pakai baterai perangkat yang lebih lama. NPU berfungsi selaras dengan CPU dan GPU. Windows 11 menetapkan tugas pemrosesan ke tempat yang paling tepat untuk memberikan performa yang cepat dan efisien. NPU memungkinkan pengalaman cerdas AI pada perangkat dengan keamanan tingkat Perusahaan untuk perlindungan yang ditingkatkan dari chip ke cloud.

Fitur AI unik yang didukung oleh Copilot+ PC dengan NPU

Copilot+ PC menawarkan pengalaman AI unik yang dikirim dengan versi modern Windows 11. Fitur AI ini, yang dirancang untuk berjalan pada NPU perangkat, dikirim dalam rilis terbaru Windows dan akan tersedia melalui API di Microsoft Foundry di Windows. Pelajari selengkapnya tentang Microsoft Foundry pada API Windows yang didukung oleh model yang dioptimalkan untuk melakukan inferensi pada NPU. API ini akan dikirimkan dalam rilis yang akan datang dari Windows App SDK.

Cara mengakses NPU pada Copilot+ PC

Unit Pemrosesan Neural (NPU) adalah sumber daya perangkat keras baru. Seperti sumber daya perangkat keras lainnya pada PC, NPU membutuhkan perangkat lunak untuk diprogram secara khusus untuk memanfaatkan manfaat yang ditawarkannya. NPU dirancang khusus untuk menjalankan operasi matematika pembelajaran mendalam yang membentuk model AI.

Fitur Windows 11 Copilot+ AI yang disebutkan di atas telah dirancang khusus untuk memanfaatkan NPU. Pengguna akan mendapatkan peningkatan masa pakai baterai dan waktu eksekusi inferensi yang lebih cepat untuk model AI yang menargetkan NPU. Dukungan Windows 11 untuk NPU akan mencakup perangkat Qualcomm berbasis Arm, serta perangkat Intel dan AMD (segera hadir).

Untuk perangkat dengan NPU, Task Manager sekarang dapat digunakan untuk melihat penggunaan sumber daya NPU.

Cuplikan layar Windows Task Manager yang menampilkan performa NPU bersama CPU, GPU, Memori, Ethernet, dan Disk

Cara yang disarankan untuk inferensi (menjalankan tugas AI) pada NPU perangkat adalah dengan menggunakan Windows ML.

Cara mengakses NPU secara terprogram pada Copilot+ PC untuk akselerasi AI

Cara yang disarankan untuk mengakses NPU (Neural Processing Unit) dan GPU untuk akselerasi AI secara terprogram telah bergeser dari DirectML ke Windows ML (WinML). Transisi ini mencerminkan upaya yang lebih luas untuk menyederhanakan dan mengoptimalkan pengalaman pengembang untuk beban kerja AI pada perangkat Windows. Anda dapat menemukan panduan yang diperbarui di sini: Pelajari bagaimana Windows Machine Learning (ML) membantu aplikasi Windows Anda menjalankan model AI secara lokal..

  • Penemuan EP bawaan: Sebelumnya, pengembang diharuskan untuk mengetahui Penyedia Eksekusi (EP) mana yang kompatibel dengan perangkat keras mereka dan menggabungkan IP tersebut dengan aplikasi mereka. Ini sering menyebabkan ukuran aplikasi yang lebih besar dan peningkatan kompleksitas dalam mengelola dependensi. Dengan Windows ML, prosesnya sekarang otomatis dan disederhanakan. Windows ML secara otomatis mendeteksi perangkat keras yang tersedia pada perangkat dan mengunduh EP yang diperlukan. Ini berarti bahwa pengembang tidak lagi perlu menggabungkan EP tertentu dengan aplikasi mereka, menghasilkan ukuran aplikasi yang lebih kecil dan kompleksitas yang berkurang.

  • Pengiriman EP Terintegrasi: EP yang diperlukan, seperti QNNExecutionProvider dari Qualcomm atau OpenVINO EP dari Intel, sekarang dibundel dengan Windows atau dikirimkan melalui Windows Update, menghilangkan kebutuhan untuk unduhan manual.

  • ORT di balik layar: Windows ML masih menggunakan ONNX Runtime sebagai mesin inferensinya, tetapi mengabstraksi kompleksitas pengelolaan EP. ONNX Runtime adalah inferensi sumber terbuka dan mesin pelatihan untuk model AI menggunakan format ONNX dan memungkinkan pengembang untuk membangun aplikasi AI yang dapat berjalan secara efisien di berbagai perangkat.

  • Kolaborasi dengan vendor perangkat keras: Microsoft bekerja langsung dengan vendor perangkat keras, seperti Qualcomm dan Intel, untuk memastikan kompatibilitas EP dengan versi driver awal dan silikon baru (misalnya, Snapdragon X Elite, Intel Core Ultra, dll.).

Saat Anda menyebarkan model AI menggunakan Windows ML pada Copilot+ PC:

  • Windows ML mengkueri sistem untuk akselerator perangkat keras yang tersedia.
  • Sistem ini memilih EP yang paling unggul dari segi kinerja (seperti QNN untuk NPU Qualcomm, OpenVINO untuk NPU Intel).
  • EP dimuat secara otomatis, dan inferensi dimulai.
  • Jika EP pilihan gagal atau tidak tersedia, Windows ML secara mulus beralih ke opsi lain (misalnya menggunakan GPU atau CPU).

Ini berarti pengembang dapat fokus membangun pengalaman AI tanpa khawatir tentang integrasi perangkat keras tingkat rendah

Format model yang didukung

Model AI sering dilatih dan tersedia dalam format data yang lebih besar, seperti FP32. Namun, banyak perangkat NPU hanya mendukung matematika bilangan bulat dalam format bit yang lebih rendah, seperti INT8, untuk meningkatkan performa dan efisiensi daya. Oleh karena itu, model AI perlu dikonversi (atau "dikuantisasi") untuk berjalan pada NPU. Ada banyak model yang tersedia yang telah dikonversi menjadi format siap digunakan. Anda juga dapat membawa model Anda sendiri (BYOM) untuk mengonversi atau mengoptimalkan.

  • Qualcomm AI Hub (Compute): Qualcomm menyediakan model AI yang telah divalidasi untuk digunakan pada Copilot+ PC dengan Snapdragon X Elite dengan model yang tersedia yang secara khusus dioptimalkan untuk berjalan secara efisien pada NPU ini. Pelajari lebih lanjut: Mempercepat penyebaran model dengan Qualcomm AI Hub | Microsoft Build 2024.
  • ONNX Model Zoo: Repositori sumber terbuka ini menawarkan koleksi model canggih yang telah dilatih sebelumnya dalam format ONNX. Model ini direkomendasikan untuk digunakan dengan NPU di semua Copilot+ PC, termasuk perangkat Intel dan AMD (segera hadir).

Bagi mereka yang ingin membawa model Anda sendiri, sebaiknya gunakan alat pengoptimalan model yang sadar perangkat keras, Olive. Olive dapat membantu kompresi model, pengoptimalan, dan kompilasi untuk bekerja dengan ONNX Runtime sebagai solusi pengoptimalan performa NPU. Pelajari lebih lanjut: AI menjadi lebih mudah: Bagaimana toolchain ONNX Runtime dan Olive akan membantu Anda tanya jawab | Bangun 2023.

Cara mengukur performa model AI yang berjalan secara lokal di NPU perangkat

Untuk mengukur performa integrasi fitur AI di aplikasi Anda dan runtime model AI terkait:

  • Rekam jejak: Merekam aktivitas perangkat selama periode waktu tertentu dikenal sebagai pelacakan sistem. Pelacakan sistem menghasilkan file "jejak" yang dapat digunakan untuk menghasilkan laporan dan membantu Anda mengidentifikasi cara meningkatkan performa aplikasi Anda. Pelajari lebih lanjut: Ambil jejak sistem untuk menganalisis penggunaan memori.

  • Lihat penggunaan NPU: Periksa proses mana yang menggunakan NPU dan tumpukan panggilan yang mengirimkan pekerjaan.

  • Lihat pekerjaan dan tumpukan panggilan pada CPU: Periksa hasil model AI pengumpanan pra-kerja dan model AI pemrosesan pasca-kerja.

  • Muat dan Runtime: Periksa lamanya waktu untuk memuat model AI dan membuat sesi Runtime ONNX.

  • Parameter runtime: Periksa konfigurasi OnNX Runtime dan parameter Execution Provider (EP) yang memengaruhi performa dan pengoptimalan runtime model.

  • Waktu inferensi individual: Lacak waktu per inferensi dan sub-detail dari NPU.

  • Profiler: Operasi model AI profil untuk melihat berapa lama setiap operator berkontribusi pada total waktu inferensi.

  • Khusus NPU: Periksa sub-detail NPU seperti metrik sub-HW, bandwidth memori, dan banyak lagi.

Cuplikan layar yang memberikan kesan umum alat Penganalisis Kinerja Windows

Untuk melakukan pengukuran ini, kami merekomendasikan alat diagnostik dan pelacakan berikut:

  • Pengelola Tugas: Memungkinkan pengguna untuk melihat performa Sistem Operasi Windows yang diinstal pada perangkat mereka, termasuk Proses, Performa, Riwayat aplikasi, aplikasi Startup, Pengguna, Detail, dan Layanan. Data performa real time akan ditampilkan untuk CPU perangkat Anda, Memori, Disk Penyimpanan, Wi-Fi, GPU... dan sekarang NPU. Data mencakup persentase pemanfaatan, memori yang tersedia, memori bersama, versi driver, lokasi fisik, dan banyak lagi.
  • Windows Performance Recorder (WPR): WPR sekarang dikirim dengan profil Pemrosesan Neural untuk merekam aktivitas NPU. Ini mencatat interaksi Microsoft Compute Driver Model (MCDM) dengan NPU. Pengembang sekarang dapat melihat penggunaan NPU, proses mana yang menggunakan NPU, dan tumpukan panggilan yang mengirimkan pekerjaan.
  • Windows Penganalisis Kinerja (WPA): WPA membuat grafik dan tabel data peristiwa Event Tracing for Windows (ETW) yang direkam oleh Windows Performance Recorder (WPR), Xperf, atau penilaian yang dijalankan di Platform Penilaian. Ini menyediakan titik akses yang nyaman untuk menganalisis CPU, Disk, Jaringan, Peristiwa Runtime ONNX... dan tabel baru untuk analisis NPU, semuanya dalam satu garis waktu. WPA sekarang dapat melihat pekerjaan dan tumpukan panggilan pada CPU yang terkait dengan model AI pengumpanan pra-kerja dan hasil model AI pemrosesan pasca-kerja. Unduh Windows Penganalisis Kinerja dari Microsoft Store.
  • GPUView: GPUView adalah alat pengembangan yang membaca peristiwa video dan kernel yang dicatat dari file log jejak peristiwa (.etl) dan menyajikan data secara grafis kepada pengguna. Alat ini sekarang mencakup operasi GPU dan NPU, serta dukungan untuk melihat peristiwa DirectX untuk perangkat MCDM seperti NPU.
  • Peristiwa Runtime ONNX di Windows Penganalisis Kinerja: Dimulai dengan ONNXRuntime 1.17 (dan ditingkatkan dalam 1.18.1) kasus penggunaan berikut tersedia dengan peristiwa yang dipancarkan dalam runtime:
    • Lihat berapa lama waktu yang diperlukan untuk memuat model AI dan membuat sesi ONNX Runtime.
    • Lihat konfigurasi Runtime ONNX dan parameter Penyedia Eksekusi (EP) yang memengaruhi performa dan pengoptimalan runtime model.
    • Lacak per waktu inferensi dan sub-detail dari NPU (QNN).
    • Operasi Model AI Profil untuk melihat berapa lama waktu yang dibutuhkan setiap operator untuk berkontribusi pada total waktu inferensi.
    • Pelajari selengkapnya tentang Pembuatan Profil Penyedia Eksekusi Runtime ONNX (EP).

Catatan

WPR UI (antarmuka pengguna yang tersedia untuk mendukung WPR berbasis baris perintah yang disertakan dalam Windows), WPA, dan GPUView semuanya merupakan bagian dari Windows Performance Toolkit (WPT), versi Mei 2024+. Untuk menggunakan WPT, Anda harus: Unduh Windows ADK Toolkit.

Untuk mulai cepat melihat peristiwa ONNX Runtime dengan Windows Penganalisis Kinerja (WPA), ikuti langkah-langkah berikut:

  1. Unduh ort.wprp dan etw_provider.wprp.

  2. Buka baris perintah Anda dan masukkan:

    wpr -start ort.wprp -start etw_provider.wprp -start NeuralProcessing -start CPU
    echo Repro the issue allowing ONNX to run 
    wpr -stop onnx_NPU.etl -compress
    
  3. Gabungkan profil Windows Performance Recorder (WPR) dengan Profil Rekaman Bawaan lainnya seperti CPU, Disk, dll.

  4. Unduh Windows Penganalisis Kinerja (WPA) dari Microsoft Store.

  5. onnx_NPU.etl Buka file di WPA. Klik Ganda untuk membuka grafik ini:

    • "Pemrosesan Neural -> Pemanfaatan NPU
    • Peristiwa Umum untuk peristiwa ONNX

Alat pengukuran performa tambahan yang perlu dipertimbangkan untuk digunakan dengan alat Microsoft Windows yang tercantum di atas, meliputi:

  • Qualcomm Snapdragon Profiler (qprof): GUI dan alat pembuatan profil performa seluruh sistem yang dirancang untuk memvisualisasikan performa sistem, serta mengidentifikasi peluang peningkatan pengoptimalan dan penskalaan aplikasi di seluruh CPU SoC Qualcomm, GPU, DSP, dan blok IP lainnya. Snapdragon Profiler memungkinkan melihat sub-detail NPU, seperti metrik sub-HW, bandwidth memori, dan banyak lagi.

Sumber Daya Tambahan