Apa itu ML Windows?

Windows ML adalah kerangka kerja inferensi AI lokal terpadu dan berkinerja tinggi untuk Windows, didukung oleh ONNX Runtime. Dengan Windows ML, Anda dapat menjalankan model AI secara lokal dan mempercepat inferensi pada NPU, GPU, dan CPU melalui penyedia eksekusi opsional yang dikelola dan diperbarui Windows. Anda dapat menggunakan model dari PyTorch, TensorFlow/Keras, TFLite, scikit-learn, dan kerangka kerja lainnya dengan Windows ML.

diagram yang mengilustrasikan model ONNX melalui Windows ML kemudian mencapai NPU, GPU, dan CPU.

Manfaat utama

Windows ML membuatnya mudah untuk membawa inferensi AI ke aplikasi Windows apa pun:

  • Jalankan AI di perangkat — model berjalan secara lokal pada perangkat keras pengguna, menjaga data tetap privat, menghilangkan biaya cloud, dan bekerja tanpa koneksi internet.
  • Gunakan model yang sudah Anda miliki — bawa model dari PyTorch, TensorFlow, scikit-learn, Hugging Face, dan banyak lagi.
  • Akselerasi perangkat keras, difasilitasi oleh Windows — Windows ML memungkinkan Anda mengakses NPU, GPU, dan CPU khusus IHV melalui penyedia eksekusi yang diinstal dan diperbarui Windows melalui Windows Update — tidak perlu membundel penyedia eksekusi di aplikasi Anda.
  • Satu waktu proses, banyak aplikasi — secara opsional menggunakan Windows ML sebagai komponen sistem bersama, sehingga aplikasi Anda tetap kecil dan semua aplikasi di perangkat berbagi runtime yang selalu diperbarui yang sama, daripada setiap aplikasi menyertakan salinan masing-masing.
  • Performa terbaik di kelasnya — Windows ML memberikan performa hingga logam pada NPU dan GPU, sejalan dengan SDK khusus seperti TensorRT untuk RTX atau AI Engine Direct Qualcomm. Hasil performa bervariasi menurut konfigurasi dan model perangkat keras — lihat Mempercepat model AI untuk panduan khusus perangkat keras.

Mengapa menggunakan Windows ML alih-alih Microsoft ORT?

Windows ML adalah salinan ONNX Runtime (ORT) yang didukung dan dikelola oleh Windows, tersedia sebagai salinan yang terpasang di seluruh sistem atau sebagai versi yang berdiri sendiri.

  • API ONNX yang sama — tidak ada perubahan pada kode ONNX Runtime Anda yang ada
  • Didukung Windows — didukung dan dikelola oleh tim Windows
  • Dukungan perangkat keras yang luas — berjalan pada PC Windows (x64 dan ARM64) dan Windows Server dengan konfigurasi perangkat keras apa pun
  • Ukuran aplikasi opsional yang lebih kecil — pilih penerapan yang bergantung pada kerangka kerja dan gunakan runtime bersama di seluruh aplikasi daripada menyertakan salinan Anda sendiri
  • Pembaruan evergreen opsional — pilih penyebaran yang bergantung pada kerangka kerja dan pengguna Anda selalu mendapatkan runtime terbaru melalui Windows Update

Selain itu, Windows ML memungkinkan aplikasi Anda untuk secara dinamis memperoleh penyedia eksekusi terbaru untuk mempercepat model AI Anda, tanpa membawa IP di aplikasi Anda dan membuat build terpisah untuk perangkat keras yang berbeda.

Lihat Mulai menggunakan Windows ML untuk mencobanya sendiri!

Akselerasi perangkat keras pada NPU, GPU, dan CPU

Windows ML memungkinkan Anda mengakses penyedia eksekusi yang dapat mempercepat inferensi di tiga kelas silikon yang ada di PC Windows modern:

  • NPU — inferensi pada perangkat yang hemat baterai dan berkelanjutan, dengan NPU paling kuat yang tersedia di Pc Copilot+
  • GPU — beban kerja throughput tinggi seperti gambar, video, dan AI generatif, yang umumnya akan memberikan performa maksimum pada GPU diskrit
  • CPU — fallback yang universal, ditambah akselerasi CPU yang dioptimalkan oleh IHV

Untuk opsi pemetaan silikon-to-EP lengkap, persyaratan driver, dan sumber EP, lihat Mempercepat model AI.

Persyaratan sistem

  • OS: Versi Windows yang didukung SDK Aplikasi Windows
  • Arsitektur: x64 atau ARM64
  • Perangkat keras: Konfigurasi PC apa pun (CPU, GPU terintegrasi/diskrit, NPU)

Nota

Dukungan untuk CPU dan GPU (melalui DirectML) tersedia di semua versi Windows yang didukung. Penyedia eksekusi yang dioptimalkan perangkat keras untuk NPU dan perangkat keras GPU tertentu memerlukan Windows 11 versi 24H2 (build 26100) atau lebih besar. Untuk detailnya, lihat Penyedia eksekusi Windows ML.

Pengoptimalan performa

Versi terbaru Windows ML berfungsi langsung dengan penyedia eksekusi khusus untuk GPU dan NPU, memberikan performa tingkat rendah yang sebanding dengan SDK khusus di masa lalu seperti TensorRT untuk RTX, AI Engine Direct, dan Ekstensi Intel untuk PyTorch. Kami telah merekayasa Windows ML untuk memiliki performa GPU dan NPU terbaik di kelasnya, tanpa mengharuskan aplikasi Anda mendistribusikan SDK khusus IHV. Hasil performa bervariasi menurut konfigurasi dan model perangkat keras — lihat Mempercepat model AI untuk panduan khusus perangkat keras.

Mengonversi model ke ONNX

Anda dapat mengonversi model dari format lain ke ONNX sehingga Anda dapat menggunakannya dengan Windows ML. Lihat dokumentasi Foundry Toolkit untuk Visual Studio Code tentang cara mengonversi model ke format ONNX untuk mempelajari lebih lanjut. Lihat juga Tutorial Runtime ONNX untuk informasi selengkapnya tentang mengonversi model PyTorch, TensorFlow, dan Hugging Face ke ONNX.

Distribusi model

Windows ML menyediakan opsi fleksibel untuk mendistribusikan model AI:

  • Berbagi model di seluruh aplikasi - Mengunduh dan berbagi model secara dinamis di seluruh aplikasi dari CDN apa pun tanpa membundel file besar
  • Model lokal - Sertakan file model langsung dalam paket aplikasi Anda

Integrasi dengan ekosistem AI Windows

Windows ML berfungsi sebagai fondasi untuk platform AI Windows yang lebih luas:

  • Windows API AI - Model bawaan untuk tugas umum
  • Foundry Local - Model AI siap pakai
  • Model kustom - Akses API ML Windows langsung untuk skenario tingkat lanjut

Memberikan umpan balik

Menemukan masalah atau memiliki saran? Cari atau buat masalah pada SDK Aplikasi Windows GitHub.

Langkah selanjutnya