ML 모델 엔드포인트를 사용하여 실시간 예측 제공(미리 보기)

중요합니다

이 기능은 프리뷰 상태입니다.

Microsoft Fabric은 안전하고 확장 가능하며 사용하기 쉬운 온라인 엔드포인트를 사용하여 ML 모델에서 실시간 예측을 제공할 수 있게 해줍니다. 대부분의 Fabric 모델은 이러한 엔드포인트를 내장 속성으로 포함하며, 완전 관리되는 실시간 배포를 시작하기 위해 별도의 설정이 필요하지 않습니다.

공용 REST API를 사용하여 모델 엔드포인트를 활성화, 구성 및 쿼리할 수 있습니다. 또한 Fabric 인터페이스에서 로우코드 경험을 통해 모델 엔드포인트를 활성화하고 예측을 즉시 미리보기할 수 있습니다.

필수 조건

테넌트는 기본적으로 머신러닝 모델 엔드포인트가 활성화되어 있습니다. 관리자가 이 기능을 사용하지 않도록 설정하려는 경우 Fabric 관리 포털에서 ML 모델 엔드포인트 테넌트 스위치를 해제할 수 있습니다.

제한점

엔드포인트는 현재 Keras, LightGBM, Sklearn 및 XGBoost를 비롯한 제한된 ML 모델 버전 집합에 사용할 수 있습니다.
현재 엔드포인트는 텐서 기반 스키마가 있거나 스키마가 없는 모델에 사용할 수 없습니다 .

비고

머신러닝 엔드포인트는 AutoML 학습 모델을 지원합니다.

모델 엔드포인트 사용 시작하기

Fabric의 ML 모델은 실시간 예측을 제공할 수 있는 온라인 엔드포인트가 미리 구축되어 있습니다. 각 등록된 모델 버전에는 전용 엔드포인트 URL이 있으며, 이는 Fabric 인터페이스의 엔드포인트 세부 정보 항목에서 확인할 수 있습니다. 이 URL은 특정 버전을 지정하는 서브패스로 끝납니다(예: /versions/1/score).

모델 엔드포인트에는 다음과 같은 속성이 있습니다.

재산	설명	기본값
기본 버전	이 속성(`Yes` 또는 `No`)은 해당 버전이 실제 예측을 제공하는 모델의 기본값으로 설정되었는지를 나타냅니다. 모델 설정 에서 기본 버전을 사용자 지정할 수 있습니다.	`No`
상태	이 속성은 엔드포인트가 예측을 제공할 준비가 되었는지 여부를 나타냅니다. 상태는 `Inactive`, `Activating`, `Active`, `Deactivating` 또는 `Failed`일 수 있습니다. 활성 엔드포인트만 예측을 제공할 수 있습니다.	`Inactive`
자동 절전 모드	이 속성(`On` 또는 `Off`)은 트래픽이 없을 때 엔드포인트가 활성 상태이면 용량 사용량을 0으로 축소해야 하는지 여부를 나타냅니다. 자동 절전 모드가 켜져 있으면, 엔드포인트는 5분 동안 요청이 들어오지 않으면 유휴 상태에 들어갑니다. 유휴 엔드포인트를 깨우기 위한 첫 번째 호출에는 짧은 지연이 포함됩니다.	`On`

모델 엔드포인트 활성화

Fabric 인터페이스에서 직접 모델 엔드포인트를 활성화할 수 있습니다. 실시간 예측에 사용할 버전을 선택한 후 리본에서 ' 버전 엔드포인트 활성화 '를 선택하세요.

토스트 메시지에 Fabric이 예측 서비스를 제공할 수 있도록 엔드포인트를 준비 중이라는 내용이 표시되며, 엔드포인트 상태가 Activating로 변경됩니다. 무대 뒤에서 Fabric은 모델을 호스팅할 기본 컨테이너 인프라를 시작합니다. 몇 분 내에 엔드포인트가 예측을 제공할 준비가 된 것입니다.

모든 엔드포인트는 실시간 예측을 제공할 준비가 되었는지 여부를 나타내는 상태를 가지고 있습니다:

상태	설명
`Inactive`	엔드포인트는 실시간 예측을 위해 활성화되지 않으며, Fabric 용량을 소모하지도 않습니다.
`Activating`	엔드포인트가 실시간 예측을 제공하도록 구성되고 있습니다. 백그라운드에서 Fabric 모델을 호스트할 기본 컨테이너 인프라를 설정합니다. 몇 분 내에 엔드포인트가 활성화됩니다.
`Active`	엔드포인트는 실시간 예측을 제공할 준비가 된 것입니다. 백그라운드에서 Fabric 기본 인프라를 관리하여 들어오는 트래픽에 따라 리소스 사용량을 확장합니다. 트래픽이 많을수록 Fabric 용량 사용량이 늘어나게 됩니다.
`Deactivating`	엔드포인트가 비활성화되어 실시간 예측을 더 이상 수행하지 못하거나 Fabric 용량을 소모하지 않습니다. 백그라운드에서 Fabric 기본 컨테이너 인프라를 해체합니다.

비고

ML 모델은 최대 5개의 버전에 대해 활성 엔드포인트를 한 번에 지원할 수 있습니다. 여섯 번째 버전의 예측을 제공하려면 먼저 활성 엔드포인트를 비활성화해야 합니다.

모델 엔드포인트 관리

모델의 활성 엔드포인트 개요를 얻으려면 인터페이스 리본에서 ' 엔드포인트 관리' 를 선택하세요. 모든 모델에는 사용자가 선택한 버전에서 예측을 제공하는 사용자 지정 가능한 기본 엔드포인트가 있습니다. 설정 창의 드롭다운 셀렉터를 사용해 기본 버전을 업데이트할 수 있습니다.

중요합니다

기본 속성을 사용할 계획이라면 활성 버전으로 설정하세요. 기본 속성을 설정하지 않거나 비활성 버전으로 설정하면 기본 엔드포인트에 대한 호출이 실패합니다.

모델의 엔드포인트 설정에는 활성 엔드포인트가 있는 모든 버전이 나열되어 있습니다. 각 엔드포인트의 자동 절전 속성을 스위처를 켜거나 꺼서 변경할 수 있습니다.

팁 (조언)

자동 절전 모드가 켜진 활성 엔드포인트는 트래픽이 없는 5분 후에 유휴 상태에 들어갑니다. 그들을 깨우기 위한 첫 번째 호출은 짧은 지연이 필요합니다. 프로덕션 내 엔드포인트에서 이 속성을 끄는 것이 좋을 것 같습니다.

실시간 예측을 위한 모델 엔드포인트 쿼리

Fabric의 로우코드 경험을 활용해 모델 엔드포인트를 즉시 테스트할 수 있습니다. 활성 엔드포인트가 있는 버전으로 가서 인터페이스의 리본에서 ' Preview predictions '를 선택하세요. 모델 입력 서명과 일치하는 폼 필드를 사용해 샘플 요청을 엔드포인트로 보내고, 실시간으로 샘플 예측을 받을 수 있습니다.

자동 채우기를 선택해 양식 필드에 무작위 샘플 값을 채우세요. 여러 입력이 있는 엔드포인트를 테스트하기 위해 더 많은 폼 값을 추가할 수 있습니다. 엔드포인트에 샘플 요청을 보내려면 예측 가져오기(Get predictions) 를 선택하세요.

샘플 요청의 형식을 JSON 페이로드로 지정하려면 드롭다운 선택기를 사용하여 보기를 변경합니다.

모델 엔드포인트 비활성화

Fabric 인터페이스에서 직접 모델 엔드포인트를 비활성화할 수 있습니다. 실시간 예측이 더 이상 필요하지 않은 버전으로 가서 인터페이스 리본에서 버전 비활성화 엔드포인트 를 선택하세요.

토스트 메시지에 Fabric이 활성 배포를 해제하고 있음이 표시되며, 엔드포인트 상태가 Deactivating로 변경됩니다. 엔드포인트는 재활성화하지 않으면 실시간 예측을 제공할 수 없습니다.

모델의 설정 창에서 여러 버전의 엔드포인트를 한 번에 비활성화할 수 있습니다. 인터페이스의 리본에서 엔드포인트 관리(Manage endpoints) 를 선택한 후, 비활성화할 활성 엔드포인트 하나 이상을 선택하세요.

Fabric 인터페이스에서 한 번에 여러 ML 모델 엔드포인트를 비활성화하는 방법을 보여 주는 스크린샷입니다.

소비율

활성 모델 엔드포인트 호스팅은 FABRIC CPU(용량 단위)를 사용합니다. 엔드포인트는 컴퓨팅 노드에서 실행되며 들어오는 트래픽에 따라 3개의 노드로 자동으로 확장할 수 있습니다. 엔드포인트가 활성 상태인 동안 노드당 청구가 계산됩니다. 다음 표는 활성 ML 모델 엔드포인트의 CU 소비량을 보여줍니다.

수술	작업 측정 단위	소비율
모델 엔드포인트	노드당 초당 1개의 모델 엔드포인트(버전)	5 CU 초

다음 표는 예시 시나리오와 그에 따른 소비율 및 시간당 비용을 보여줍니다.

시나리오	설명	소비율	시간당 비용
비활성 엔드포인트가 있는 모델	이러한 모델에는 활성 버전 엔드포인트가 없고 연결된 리소스 사용률이 없습니다. 추가 비용은 포함되지 않습니다.	0 CU 초	0 CU 시간
활성이지만 유휴 엔드포인트가 있는 모델	이 모델들은 하나 이상의 활성 버전 엔드포인트를 가지지만, 정기적인 트래픽이 없으면 모든 엔드포인트가 0으로 확장되어 자동으로 비용을 절감합니다.	5 CU 초	0.42 CU 시간
활성 엔드포인트가 1개이고 트래픽이 항상 낮은 모델	이러한 모델에는 예측을 제공하는 활성 버전 엔드포인트가 1개뿐이지만 전체 스케일 아웃을 트리거하기에 충분한 트래픽이 없습니다. 하나의 노드가 모든 트래픽을 처리할 수 있습니다. 다른 버전 엔드포인트는 비활성 상태이거나 유휴 상태일 수 있습니다.	5 CU 초	5 CU 시간
활성 엔드포인트가 1대이고 트래픽이 일정한 모델	이 모델들은 예측을 제공하는 활성 버전 엔드포인트가 하나뿐이며, 충분한 트래픽을 통해 완전한 스케일아웃을 트리거합니다. 다른 버전 엔드포인트는 비활성 상태이거나 유휴 상태일 수 있습니다.	15 CU 초	15 CU 시간
활성 엔드포인트가 5개이고 트래픽이 일정한 모델	이러한 모델에는 예측을 제공하는 5개의 활성 버전 엔드포인트(현재 제한)가 있으며, 각각 전체 스케일 아웃을 트리거하기에 충분한 트래픽이 있습니다.	75 CU 초	75 CU 시간

Fabric 용량 메트릭 앱 "모델 엔드포인트"라는 이름으로 모델 엔드포인트 작업의 총 용량 사용량을 표시합니다. 또한, 사용자는 "ML 모델 엔드포인트 용량 사용 CU"라는 청구 항목에서 모델 엔드포인트 사용에 대한 청구 비용 요약을 확인할 수 있습니다.

모델 엔드포인트 작업은 백그라운드 작업으로 분류됩니다.

소비율은 언제든지 변경될 수 있습니다. Microsoft 전자 메일 또는 제품 내 알림을 통해 알림을 제공하기 위해 합리적인 노력을 사용합니다. 변경 사항은 Microsoft 릴리스 노트 또는 Microsoft Fabric 블로그에 명시된 날짜에 적용됩니다. Fabric 사용률에서 모델 엔드포인트를 변경하면 사용하는 데 필요한 CU(용량 단위)가 크게 증가하는 경우 고객은 선택한 결제 방법에 사용할 수 있는 취소 옵션을 사용할 수 있습니다.

ML 모델 엔드포인트 REST API를 사용하여 엔드포인트를 프로그래밍적으로 관리하고 쿼리할 수 있습니다.
실시간 데이터 보강을 위해 Dataflow Gen2 에서 모델 엔드포인트를 호출합니다.
Fabric 노트북에서 PREDICT 함수를 사용하여 배치 예측을 생성합니다.
Fabric 모델 학습 및 실험 대해 자세히 알아보세요.
필요한 기능을 누락했나요? Fabric 아이디어 포럼에 제안해 주세요.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-07-27