Windows ML은 ONNX 런타임에서 제공하는 Windows용 통합 및 고성능 로컬 AI 추론 프레임워크입니다. Windows ML을 사용하면 AI 모델을 로컬로 실행하고 Windows에서 관리하고 최신 상태로 유지하는 선택적 실행 공급자를 통해 NPU, GPU 및 CPU에 대한 유추를 가속화할 수 있습니다. Windows ML에서 PyTorch, TensorFlow/Keras, TFLite, scikit-learn 및 기타 프레임워크의 모델을 사용할 수 있습니다.
주요 이점
Windows ML을 사용하면 모든 Windows 앱에 AI 유추를 쉽게 가져올 수 있습니다.
- 디바이스에서 AI 실행 - 모델은 사용자의 하드웨어에서 로컬로 실행되고, 데이터를 비공개로 유지하고, 클라우드 비용을 제거하고, 인터넷 연결 없이 작동합니다.
- PyTorch, TensorFlow, scikit-learn, Hugging Face 등 이미 가지고 있는 모델을 사용합니다.
- Windows에서 지원되는 하드웨어 가속 - Windows ML을 사용하면 Windows가 Windows 업데이트를 통해 설치하고 최신 상태로 유지하는 실행 공급자를 통해 IHV 관련 NPU, GPU 및 CPU에 액세스할 수 있습니다. 앱에서 실행 공급자를 번들로 묶을 필요가 없습니다.
- 하나의 런타임, 많은 앱 - 필요에 따라 Windows ML을 공유 시스템 구성 요소로 사용하므로 앱은 작게 유지되고 디바이스의 모든 앱은 자체 복사본을 번들로 묶는 모든 앱이 아닌 동일한 up-to-date 런타임을 공유합니다.
- 동급 최고의 성능 — Windows ML은 RTX용 TensorRT 또는 Qualcomm의 AI 엔진 다이렉트와 같은 전용 SDK와 동등한 방식으로 NPU 및 GPU에서 금속으로 전달되는 성능을 제공합니다.
Microsoft ORT 대신 Windows ML을 사용하는 이유는 무엇인가요?
Windows ML은 시스템 전체 복사본 또는 자체 포함으로 사용할 수 있는 ONNX 런타임(ORT)의 Windows 지원 및 유지 관리 복사본입니다.
- 동일한 ONNX API - 기존 ONNX 런타임 코드가 변경되지 않음
- Windows 지원 - Windows 팀에서 지원 및 유지 관리
- 광범위한 하드웨어 지원 - 모든 하드웨어 구성을 사용하는 Windows PC(x64 및 ARM64) 및 Windows Server에서 실행됩니다.
- 선택적으로 더 작은 앱 크기 — 고유한 복사본을 묶는 대신 프레임워크 종속 배포를 선택하고 앱 간에 런타임을 공유합니다.
- 선택적 상록 업데이트 - 프레임워크 종속 배포를 선택하고 사용자는 항상 Windows 업데이트를 통해 최신 런타임을 받습니다.
또한 Windows ML을 사용하면 앱에서 EP를 수행하고 다른 하드웨어에 대한 별도의 빌드를 만들지 않고도 앱에서 최신 실행 공급자를 동적으로 획득 하여 AI 모델을 가속화할 수 있습니다.
Windows ML 시작에서 직접 시도해 보세요.
NPU, GPU 및 CPU의 하드웨어 가속
Windows ML을 사용하면 최신 Windows PC에 있는 세 가지 실리콘 클래스에서 유추를 가속화할 수 있는 실행 공급자에 액세스할 수 있습니다.
- NPU - 코필로트+ PC에서 사용할 수 있는 가장 강력한 NPU를 사용하여 배터리 효율적이고 지속적인 디바이스 유추
- GPU - 이미지, 비디오 및 생성 AI와 같은 처리량이 높은 워크로드로, 일반적으로 불연속 GPU에서 최대 성능을 제공합니다.
- CPU - 범용 대체 및 IHV 최적화 CPU 가속
전체 실리콘부터 EP까지의 매핑, 드라이버 요구 사항 및 EP 소싱 옵션은 AI 모델 가속화를 참조하세요.
시스템 요구 사항
- OS: Windows App SDK 지원하는 Windows 버전
- 아키텍처: x64 또는 ARM64
- 하드웨어: 모든 PC 구성(CPU, 통합/불연속 GPU, NPU)
비고
(DirectML을 통해) CPU 및 GPU에 대한 지원은 지원되는 모든 Windows 버전에서 사용할 수 있습니다. NPU 및 특정 GPU 하드웨어용 하드웨어 최적화 실행 공급자에는 Windows 11 버전 24H2(빌드 26100) 이상이 필요합니다. 자세한 내용은 Windows ML 실행 공급자를 참조하세요.
성능 최적화
최신 버전의 Windows ML은 GPU 및 NPU의 전용 실행 공급자와 직접 호환되며, RTX를 위한 TensorRT, AI Engine Direct, PyTorch를 위한 Intel의 확장과 같은 이전의 전용 SDK들과 동등한 하드웨어 성능을 제공합니다. 앱이 IHV 관련 SDK를 배포할 필요 없이 동급 최고의 GPU 및 NPU 성능을 갖도록 Windows ML을 엔지니어링했습니다.
모델을 ONNX로 변환
모델을 다른 형식에서 ONNX로 변환하여 Windows ML과 함께 사용할 수 있습니다. 자세한 내용은 모델을 ONNX 형식으로 변환 하는 방법에 대한 Visual Studio Code 문서용 Foundry 도구 키트를 참조하세요. 또한 PyTorch, TensorFlow 및 Hugging Face 모델을 ONNX로 변환하는 방법에 대한 자세한 내용은 ONNX 런타임 자습서 를 참조하세요.
모델 배포
Windows ML은 AI 모델을 배포하기 위한 유연한 옵션을 제공합니다.
- 앱 간에 모델 공유 - 대용량 파일을 묶지 않고 모든 CDN에서 동적으로 모델을 다운로드하고 공유
- 로컬 모델 - 애플리케이션 패키지에 직접 모델 파일 포함
Windows AI 에코시스템과의 통합
Windows ML은 광범위한 Windows AI 플랫폼의 기초 역할을 합니다.
- Windows AI API - 일반적인 작업을 위한 기본 제공 모델
- Foundry Local - 즉시 사용할 수 있는 AI 모델
- Custom 모델 - 고급 시나리오에 대한 직접 Windows ML API 액세스
피드백 제공
문제가 발견되었거나 제안이 있나요? Windows App SDK GitHub 문제를 검색하거나 만듭니다.
다음 단계
- AI 모델 실행 - Windows ML 설치 및 첫 번째 ONNX 모델 실행
- AI 모델 가속화 - 더 빠른 유추를 위해 NPU, GPU 또는 CPU 실행 공급자 추가
- 모델 찾기 또는 학습 - Windows ML과 호환되는 모델 찾기