중요합니다
이 기능은 프리뷰 상태입니다.
Microsoft Fabric을 사용하면 안전하고 확장 가능하며 사용하기 쉬운 온라인 엔드포인트를 사용하여 ML 모델의 실시간 예측을 제공할 수 있습니다. 이러한 엔드포인트는 대부분의 패브릭 모델의 기본 제공 속성으로 사용할 수 있으며 완전히 관리되는 실시간 배포를 시작하기 위한 설정이 필요하지 않습니다.
공용 REST API를 사용하여 모델 엔드포인트를 활성화, 구성 및 쿼리할 수 있습니다. 또한 낮은 코드 환경을 사용하여 모델 엔드포인트를 활성화하고 예측을 즉시 미리 볼 수 있는 패브릭 인터페이스에서 직접 시작할 수도 있습니다.
필수 조건
- 실시간 예측을 제공하려면 관리자는 Fabric 관리 포털 에서 ML 모델 엔드포인트에 대한 테넌트 스위치를 사용하도록 설정해야 합니다.
제한점
- 엔드포인트는 현재 Keras, LightGBM, Sklearn 및 XGBoost를 비롯한 제한된 ML 모델 버전 집합에 사용할 수 있습니다.
- 현재 엔드포인트는 텐서 기반 스키마가 있거나 스키마가 없는 모델에 사용할 수 없습니다 .
모델 엔드포인트 사용 시작하기
패브릭의 ML 모델은 실시간 예측을 제공하는 데 사용할 수 있는 온라인 엔드포인트가 미리 빌드되어 있습니다. 등록된 각 모델 버전에는 패브릭 인터페이스의 "엔드포인트 세부 정보" 제목 아래에서 찾을 수 있는 전용 엔드포인트 URL이 있습니다. 이 URL은 특정 버전(예: )을 지정하는 하위 경로로 /versions/1/score끝납니다.
모델 엔드포인트에는 다음과 같은 속성이 있습니다.
| 재산 | 설명 | 기본값 |
|---|---|---|
| 기본 버전 | 이 속성(Yes 또는 No)은 버전이 실제 예측을 제공하기 위한 모델의 기본값으로 설정되어 있는지 여부를 나타냅니다. 모델 설정 에서 기본 버전을 사용자 지정할 수 있습니다. |
No |
| 상태 | 이 속성은 엔드포인트가 예측을 제공할 준비가 되었는지 여부를 나타냅니다. 상태는 Inactive, Activating, Active, Deactivating 또는 Failed일 수 있습니다. 활성 엔드포인트만 예측을 제공할 수 있습니다. |
Inactive |
| 자동 절전 모드 | 이 속성(On 또는 Off)은 트래픽이 없을 때 엔드포인트가 활성 상태이면 용량 사용량을 0으로 축소해야 하는지 여부를 나타냅니다. 자동 절전 모드가 설정되면 들어오는 요청 없이 5분 후에 엔드포인트가 유휴 상태로 전환됩니다. 유휴 엔드포인트를 깨우기 위한 첫 번째 호출에는 짧은 지연이 포함됩니다. |
On |
모델 엔드포인트 활성화
패브릭 인터페이스에서 직접 모델 엔드포인트를 활성화할 수 있습니다. 실시간 예측을 제공하려는 버전으로 이동하고 리본에서 "버전 엔드포인트 활성화"를 선택합니다.
알림 메시지는 Fabric이 엔드포인트가 예측을 제공할 준비를 하고 있으며 엔드포인트 상태가 "활성화"로 변경됨을 보여 줍니다. 백그라운드에서 Fabric은 기본 컨테이너 인프라를 스핀업하여 모델을 호스트합니다. 몇 분 내에 엔드포인트가 예측을 제공할 준비가 된 것입니다.
모든 엔드포인트에는 실시간 예측을 제공할 준비가 되었는지 여부를 나타내는 상태가 있습니다.
| 상태 | 설명 |
|---|---|
Inactive |
엔드포인트는 실시간 예측을 제공하도록 활성화되지 않으며 패브릭 용량을 사용하지 않습니다. |
Activating |
엔드포인트가 실시간 예측을 제공하도록 구성되고 있습니다. 백그라운드에서 Fabric은 모델을 호스트하도록 기본 컨테이너 인프라를 설정합니다. 몇 분 내에 엔드포인트가 활성화됩니다. |
Active |
엔드포인트는 실시간 예측을 제공할 준비가 된 것입니다. 백그라운드에서 Fabric은 기본 인프라를 관리하여 들어오는 트래픽에 따라 리소스 사용량을 확장합니다. 트래픽이 많을수록 패브릭 용량 사용량이 높아질 수 있습니다. |
Deactivating |
더 이상 실시간 예측을 제공하거나 패브릭 용량을 사용하지 않도록 엔드포인트가 비활성화되고 있습니다. 백그라운드에서 Fabric은 기본 컨테이너 인프라를 해체합니다. |
비고
ML 모델은 최대 5개의 버전에 대해 활성 엔드포인트를 한 번에 지원할 수 있습니다. 여섯 번째 버전의 예측을 제공하려면 먼저 활성 엔드포인트를 비활성화해야 합니다.
모델 엔드포인트 관리
모델의 활성 엔드포인트에 대한 개요를 보려면 인터페이스의 리본에서 "엔드포인트 관리"를 선택합니다. 모든 모델에는 사용자가 선택한 버전에서 예측을 제공하는 사용자 지정 가능한 기본 엔드포인트가 있습니다. 설정 창에서 드롭다운 선택기를 사용하여 기본 버전을 업데이트할 수 있습니다.
중요합니다
기본 속성을 사용하려는 경우 활성 버전으로 설정해야 합니다. 기본 속성이 설정되지 않았거나 비활성 버전으로 설정된 경우 기본 엔드포인트에 대한 호출이 실패합니다.
활성 엔드포인트가 있는 모든 버전은 모델의 엔드포인트 설정 아래에 나열됩니다. 전환기를 "켜기" 또는 "끄기"로 전환하여 각 엔드포인트의 자동 절전 모드 속성을 수정할 수 있습니다.
팁 (조언)
자동 절전 모드가 켜진 활성 엔드포인트는 트래픽 없이 5분 후에 유휴 상태로 전환되며, 이를 깨우기 위한 첫 번째 호출에는 짧은 지연이 포함됩니다. 프로덕션의 엔드포인트에 대해 이 속성을 해제할 수 있습니다.
실시간 예측을 위한 모델 엔드포인트 쿼리
모델 엔드포인트는 패브릭에서 코드가 낮은 환경을 사용하여 즉시 테스트할 수 있습니다. 활성 엔드포인트가 있는 버전으로 이동하고 인터페이스의 리본에서 "예측 미리 보기"를 선택합니다. 모델의 입력 서명과 일치하는 양식 필드를 사용하여 엔드포인트에 샘플 요청을 보내고 실시간으로 샘플 예측을 가져올 수 있습니다.
임의 샘플 값으로 양식 필드를 채웁니다. "자동 채우기"를 선택합니다. 폼 값 집합을 더 추가하여 여러 입력으로 엔드포인트를 테스트할 수 있습니다. "예측 가져오기"를 선택하여 샘플 요청의 엔드포인트를 보냅니다.
샘플 요청의 형식을 JSON 페이로드로 지정하려면 드롭다운 선택기를 사용하여 보기를 변경합니다.
모델 엔드포인트 비활성화
패브릭 인터페이스에서 직접 모델 엔드포인트를 비활성화할 수 있습니다. 더 이상 실시간 예측을 제공할 필요가 없는 버전으로 이동하고 인터페이스의 리본에서 "버전 엔드포인트 비활성화"를 선택합니다.
알림 메시지는 Fabric이 활성 배포를 해체하고 있으며 엔드포인트 상태가 "비활성화"로 변경되었음을 보여 줍니다. 다시 활성화하지 않으면 엔드포인트가 더 이상 실시간 예측을 제공할 수 없습니다.
모델의 설정 창에서 여러 버전의 엔드포인트를 한 번에 비활성화할 수 있습니다. 인터페이스의 리본에서 "엔드포인트 관리"를 선택하고 비활성화할 하나 이상의 활성 엔드포인트를 선택합니다.
소비율
활성 모델 엔드포인트 호스팅은 CPU(패브릭 용량 단위)를 사용합니다. 엔드포인트는 컴퓨팅 노드에서 실행되며 들어오는 트래픽에 따라 3개의 노드로 자동으로 확장할 수 있습니다. 엔드포인트가 활성 상태인 동안 노드당 청구가 계산됩니다. 아래 표에서는 활성 Machine Learning 모델 엔드포인트에 대한 CU 사용량을 보여 줍니다.
| 수술 | 작업 측정 단위 | 소비율 |
|---|---|---|
| 모델 엔드포인트 | 노드당 초당 1개의 모델 엔드포인트(버전) | 5 CU 초 |
아래 표에서는 예제 시나리오와 해당 소비율 및 시간당 비용을 보여 줍니다.
| 시나리오 | 설명 | 소비율 | 시간당 비용 |
|---|---|---|---|
| 비활성 엔드포인트가 있는 모델 | 이러한 모델에는 활성 버전 엔드포인트가 없고 연결된 리소스 사용률이 없습니다. 추가 비용은 포함되지 않습니다. | 0 CU 초 | 0 CU 시간 |
| 활성이지만 유휴 엔드포인트가 있는 모델 | 이러한 모델에는 하나 이상의 활성 버전 엔드포인트가 있지만 일반 트래픽이 없으면 모두 0으로 확장되어 비용이 자동으로 절감됩니다. | 5 CU 초 | 0.42 CU 시간 |
| 활성 엔드포인트가 1대이고 트래픽이 일정한 모델 | 이러한 모델에는 예측을 제공하는 활성 버전 엔드포인트가 1개뿐이지만 전체 스케일 아웃을 트리거하기에 충분한 트래픽이 없습니다. 하나의 노드가 모든 트래픽을 처리할 수 있습니다. 다른 버전 엔드포인트는 비활성 또는 유휴 상태일 수 있습니다. | 5 CU 초 | 5 CU 시간 |
| 활성 엔드포인트가 1대이고 트래픽이 일정한 모델 | 이러한 모델에는 예측을 제공하는 활성 버전 엔드포인트가 1개뿐입니다. 전체 스케일 아웃을 트리거하기에 충분한 트래픽이 있습니다. 다른 버전 엔드포인트는 비활성 또는 유휴 상태일 수 있습니다. | 15 CU 초 | 15 CU 시간 |
| 활성 엔드포인트가 5개이고 트래픽이 일정한 모델 | 이러한 모델에는 예측을 제공하는 5개의 활성 버전 엔드포인트(현재 제한)가 있으며, 각각 전체 스케일 아웃을 트리거하기에 충분한 트래픽이 있습니다. | 75 CU 초 | 75 CU 시간 |
패브릭 용량 메트릭 앱은 "모델 엔드포인트"라는 이름으로 모델 엔드포인트 작업의 총 용량 사용량을 표시합니다. 또한 사용자는 "ML 모델 엔드포인트 용량 사용 CU" 호출 항목에서 모델 엔드포인트 사용량에 대한 청구 요금 요약을 볼 수 있습니다.
모델 엔드포인트 작업은 백그라운드 작업으로 분류됩니다.
소비율은 언제든지 변경될 수 있습니다. Microsoft는 전자 메일 또는 제품 내 알림을 통해 알림을 제공하기 위해 합리적인 노력을 사용합니다. 변경 내용은 Microsoft 릴리스 정보 또는 Microsoft Fabric 블로그에 명시된 날짜에 적용됩니다. 패브릭 소비율에서 모델 엔드포인트를 변경하면 사용하는 데 필요한 CU(용량 단위)가 크게 증가하는 경우 고객은 선택한 결제 방법에 사용할 수 있는 취소 옵션을 사용할 수 있습니다.
관련 콘텐츠
- ML 모델 엔드포인트 REST API를 사용하여 프로그래밍 방식으로 엔드포인트를 관리하고 쿼리합니다.
- Fabric Notebook에서
PREDICT함수를 사용하여 일괄 예측을 생성합니다. - 패브릭의 모델 학습 및 실험 에 대해 자세히 알아봅니다.
- 필요한 기능을 누락했나요? 패브릭 아이디어 포럼에 의견을 남겨보세요.